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20 世 纪 90 年 代 初 ,人 类 基因 组 计划 (human genome project, HGP ) 的 启动 推动 : 
了 生物 学 .医学 .药学 与 信息 科学 之 间 的 紧密 联系 ,海量 数据 的 收集 ,存储 ,分 析 
及 解释 促使 全 世界 科学 家 思考 生物 学 、 医 学 和 药学 发 展 的 新 思路 ,生物 信息 学 就 














是 在 这 样 的 背景 下 产生 并 蓬勃 发 展 起 来 的 。 生 物 信息 学 ( bioinformatics ) 是 以 数 | 


理科 学 为 理论 基础 \ 以 计算 机 技术 为 工具 ,进行 深层 次 生物 医学 海量 数据 挖掘 与 


分 析 的 多 学 科 交叉 的 新 兴学 科 。 伴 随 着 现代 生物 技术 的 发 展 ,生物 信息 学 在 现 | 


代 生 物 学 、 医 学 和 药学 的 发 展 中 发 挥 着 重要 作用 。 


随 着 新 一 代 测 序 技术 ,生物 芯片 技术 药物 和 选 技术 等 的 快速 发 展 ,现代 生 C 


物 学 .医学 .药学 研究 已 经 由 单一 因素 .单个 分 子 层面 进入 到 高 通 量 、 大 规模 的 组 
学 研究 时 代 。 面 对 信息 含量 大 、 数 理 逻 辑 强 的 生物 学 .医学 .药学 资源 ,传统 的 实 
验方 法 遇 到 巨大 挑战 ,已 经 难以 独立 解决 众多 复杂 的 生物 学 .医学 .药学 问题 。 
在 此 基础 上 ,以 海量 数据 分 析 为 研究 内 容 的 生物 信息 学 逐渐 成 为 生物 学 医学、 
药学 研究 领域 不 可 或 缺 的 组 成 部 分 。 生物 信息 学 理论 能 够 广泛 地 应 用 于 生物 学 、 
医学 .药学 等 研究 领域 ,如 人 类 疾病 病因 学 研究 ,临床 诊断 标志 物 识 别 ,疾病 分 型 





和 预后 预测 .遗传 调控 机 制 和 分 子 通路 建立 药物 靶 标 识别 与 药物 设计 、 新 兴 生 : 





物 大 分 子 发 现 与 功能 分 析 、 生 理 模 拟 与 病理 推断 、 动 植物 育种 与 分 子 进 化 等 方 E 





面 ,并 能 够 极 大 地 促进 个 性 化 医疗 的 发 展 。 由 此 ,我 们 总 结 多 年 积累 的 学 术 思 想 、 
研究 心得 及 结果 ,编著 了 《生物 信息 学 理论 与 医学 实践 》 一 书 。 本 书 旨 在 为 生物 
学 .医学 药学 研究 领域 的 科学 工作 者 及 生物 信息 学 领域 的 同行 ,学生 等 人 员 介 
绍 生物 信息 学 基础 理论 .数据 分 析 方法 及 其 在 生物 学 .医学 .药学 领域 中 的 应 用 
成 果 。 

本 书 不 仅 对 生物 信息 学 研究 领域 的 基础 知识 及 基本 理论 进行 了 详细 介绍 ， 
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和 ”如 网 络 数据 资源 ,序列 比 对 .分 子 进化 基因 芯片 及 蛋白 质 结构 等 ; 而 且 介绍 了 目 


前 国内 外 生命 科学 研究 应 用 的 热门 技术 及 热点 领域 ,如 新 一 代 测 序 技术 、 富 集 分 
析 技 术 、 表 观 遗 传 学 分 析 技 术 、microRNA 与 疾病 研究 及 药物 靶 点 盘查 技术 ,并 对 
书 中 涉及 的 各 种 分 析 技 术 给 出 详细 的 应 用 实例 。 我 们 希望 能 与 感 兴趣 的 读者 交 
流 , 有 机 会 完善 本 书 。 限 于 作者 目前 的 水 平 ,加 之 时 间 仓 促 , 书 中 必 有 许多 不 足 
之 处 ,希望 能 够 得 到 读者 的 指正 。 

本 书 每 一 章 的 编者 都 有 相关 领域 多 年 并 丰富 的 研究 经 历 ,每 一 章 都 凝聚 了 
”他 们 的 学 术 思 想 及 科研 成 果 。 他 们 在 百 忙 之 中 精心 组 织 材料 、 字 其 句 酌 编 写本 
-— 书 ,在 此 我 们 对 全 体 编者 的 无 私 奉献 表示 衷心 的 感谢 ! 多 年 来 ,我 们 的 工作 得 到 
”了 哈尔滨 医科 大 学 各 方面 的 大 力 支持 与 热情 鼓励 ,同时 也 得 到 了 国家 自然 科学 
基金 的 支持 , 讶 在 此 一 并 表示 诚挚 的 谢意 ! 


李 S 
2012 年 12 月 
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第 一 节 


生物 信息 学 的 产生 及 发 展 





Section 1 The rise and development of bioinformatics 


一 、 生 物 信 息 学 的 产生 》》 


生物 信息 学 的 产生 仅 有 几 十 年 的 时 间 , bioinformatics 这 一 名 词 更 是 在 1991 年 前 后 才 在 
文献 中 出 现 的 。 事 实 上 , 早 在 1956 年 ,在 美国 田纳西 州 盖 特 林 堡 召开 的 首次 “生物 学 中 的 信 
息 理论 研讨 会 ”上 , 便 产 生 了 生物 信息 学 的 概念 ,只 不 过 最 初 常 被 称 为 基因 组 信息 学 。 就 生 
物 信息 学 的 发 展 而 言 , 它 还 是 一 门 相 当年 轻 的 学 科 。 直 到 20 世 纪 80~90 年 代 , 伴 随 着 计算 机 
科学 技术 的 进步 ,生物 信息 学 才 有 了 突破 性 进展 。 

20 世 纪 后 期 ,生物 科学 技术 、 计 算 机 科学 技术 和 网 络 技术 日 益 渗透 到 生物 科学 的 各 个 
领域 ,生物 科学 的 数据 资源 获得 迅猛 发 展 。 数 据 资 源 的 急剧 膨胀 迫使 人 们 寻求 一 种 强 有 力 
的 工具 去 组 织 这 些 数 据 , 以 利于 储存 .加 工 和 进一步 利用 。 同 时 ,海量 的 生物 学 数据 中 必然 
蕴含 着 重要 的 生物 学 规律 ,这 些 规律 将 是 解释 生命 之 谜 的 关键 ,人 们 同样 需要 一 种 强 有 力 的 
工具 对 这 些 数据 进行 分 析 。20 志 纪 80 年 代 末期 ,生物 学 家 认识 到 将 计算 机 科学 与 生物 学 结 
合 起 来 的 重要 意义 ,开始 留意 要 为 这 一 领域 构思 一 个 合适 的 名 称 。1987 年 , “生物 信 息 学 ” 
( bioinformatics ) 这 一 学 科 名 词 诞生 。 此 后 ,生物 信息 学 的 内 涵 随 着 研究 的 深入 和 现实 的 需 
要 而 几经 更 迭 。1995 年 ,在 美国 人 类 基因 组 计划 第 一 个 五 年 总 结 报告 中 ,给 出 了 一 个 较为 完 
整 的 生物 信息 学 定义 : 生物 信息 学 是 一 门 交 又 科学 , 它 包含 了 生物 信息 的 获取 、 加 工 、 存 储 、 
分 配 、 分 析 、 解 释 等 在 内 的 所 有 方面 , 它 综合 运用 数学 .计算 机 科学 和 生物 学 的 各 种 工具 ,来 
阐明 和 理解 大 量 数据 所 包含 的 生物 学 意义 。 

从 生物 信息 学 产生 的 历程 可 以 看 出 ,基因 组 信息 是 生物 信息 中 最 早 的 表现 形式 ,并 且 基 
因 组 信息 在 生物 信息 中 占有 极 大 的 比重 。 但 是 ,生物 信息 并 不 仅 限于 基因 组 信息 ,生物 信息 
学 也 不 等 同 于 基因 组 信息 学 。 广 义 地 说 ,生物 信息 不 仅 包 括 基因 组 信息 ,如 基因 的 DNA 序 列 、 
染色 体 定位 ,也 包括 基因 产物 (蛋白 质 或 RNA ) 的 结构 和 功能 及 各 生物 种 间 的 进化 关系 等 其 
他 信息 资源 。 生 物 信息 学 既 涉及 基因 组 信息 的 获取 、 处 理 , 贮 存 、 传 递 .分 析 和 解释 ,又 涉及 
和 蛋白质 组 信息 学 如 蛋白质 的 序列 结构 .功能 及 定位 分 类 蛋白质 连锁 图 ,蛋白质 数据 库 的 建 
XL 相关 分 析 软 件 的 开发 和 应 用 等 方面 ,还 涉及 基因 与 蛋白 质 的 关系 如 蛋白 质 编 码 基因 的 识 
别 及 算法 研究 ZEE BERTI 功能 预测 等 ,另外 ,新 药 研 制 .生物 进化 也 是 生物 信息 学 研究 的 
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因此 ,生物 信息 学 是 融合 生物 科学 与 数理 科学 的 新 兴学 科 , 具 体 地 说 生物 信息 学 是 以 核 
酸 、 蛋 白质 等 生物 大 分 子 数据 库 为 主要 研究 对 象 , 以 数学 信息 学 .计算 机 科学 为 主要 研究 手 
段 , 以 计算 机 硬件 、 软 件 和 计算 机 网 络 为 主要 研究 工具 ,对 浩如烟海 的 原始 数据 进行 存储 、 管 
38 注释 加工, 使 之 成 为 具有 明确 生物 意义 的 生物 信息 。 并 通过 对 生物 信息 的 查询 搜索、 
比较 ,分 析 , 从 中 获取 基因 编码 基因 调控 、 核 酸 和 蛋白 质 结构 功能 及 其 相互 关系 等 理性 知 
识 。 在 大 量 信息 和 知识 的 基础 上 ,探索 生命 起 源 、 生 物 进 化 以 及 细胞 .器官 和 个 体 的 发 生发 
育 \ 病 变 、 衰 亡 等 生命 科学 中 的 重大 问题 。 


二 、 生 物 信息 学 的 发 展 历史 >> 


生物 信息 学 自 产 生 以 来 大 致 经 历 了 前 基因 组 时 代 .基因 组 时 代 和 后 基因 组 时 代 三 个 发 
展 阶段 。 三 个 阶段 虽 无 明显 的 界限 , 却 真实 地 反映 了 生物 信息 学 整个 研究 重心 的 转移 变化 
历程 。 


(一 ) 前 基因 组 时 期 


从 19 世 纪 开 始 , 人 们 逐渐 认识 到 和 蛋白质 在 生命 活动 中 的 重要 作用 。1953 年 , 沃 森 和 克 里 
克 发 现 了 DNA 双 螺旋 的 结构 ,开启 了 分 子 生 物 学 时 代 ,使 遗传 的 研究 深入 到 分 子 层次 “生命 
ZIE” 被 打开 ,人 们 清楚 地 了 人 解 遗 传 信息 的 构成 和 传递 途径 。 此 后 ,一 些 新 兴学 科 如 雨 后 春 
算 般 出 现 , 这 些 学 科 的 产生 和 发 展 为 生物 信息 学 的 产生 奠定 了 坚实 的 基础 。1956 年 在 美国 
田纳西 州 的 盖 特 林 堡 召开 了 首次 “生物 学 中 的 信息 理论 研讨 会 ”, 一 些 计算 生物 学 家 开始 进 
行 生物 信息 相关 研究 ,尽管 当时 还 没有 具体 地 提出 生物 信息 学 的 概念 ,但 做 了 许多 生物 信息 
搜集 和 分 析 方 面 的 工作 。1962 年 , Zucherkand1 和 Pauling 人 研究 了 序列 变化 与 进化 之 间 的 关系 ， 
开创 了 一 个 新 的 领域 一 一 分 子 进化 。 随 后 ,通过 序列 比较 确定 序列 的 功能 及 序列 分 类 关系 
便 成 为 序列 分 析 的 主要 工作 。1967 年 , Dayhoff 研 制 出 蛋白 质 序 列 图 集 ,该 图 集 后 来 演变 为 著 
名 的 蛋白 质 信息 源 ( protein information resource, PIR )。20 世 纪 60 年 代 是 生物 信息 学 形成 的 
萌芽 阶段 。 

从 70 年 代 到 80 年 代 初 期 , 随 着 生物 化 学 技术 的 发 展 ,产生 出 许多 生物 分 子 序列 数据 ,而 
在 这 个 阶段 数学 统计 方法 和 计算 机 技术 都 得 到 较 快 的 发 展 ,于 是 促使 一 部 分 计算 机 科学 家 
应 用 计算 机 技术 解决 生物 学 问题 ,特别 是 与 生物 分 子 序列 相关 的 问题 。 他 们 开始 研究 生物 
分 子 序 列 , 研 究 如 何 根据 序列 推测 结构 和 功能 ,出 现 了 一 系列 著名 的 序列 比较 方法 ,其 中 ， 
Needleman 和 Wunsch 于 1970 年 提出 的 序列 比 对 算法 是 对 生物 信息 学 发 展 最 重要 的 贡献 。 同 
年 , Cibbs 和 MecIntyre 发 表 的 矩阵 打点 作 图 法 也 是 进行 序列 比较 的 一 个 著名 方法 ,该 方法 可 用 
于 寻找 序列 中 的 重复 片段 ,从 而 推测 其 功能 。Dayhoff 提 出 的 基于 点 突变 模型 的 PAM( point 
accepted multation ) 矩阵 是 第 一 个 广泛 使 用 的 比较 氨基 酸 相似 性 的 打分 和 矩阵, 它 大 大 地 提高 
了 序列 比较 算法 的 性 能 。1981 年 , Smith 和 Waterman 提 出 了 著名 的 公共 子 序列 识别 算法 , 同 
年 , Doolittle 提 出 关于 序列 模式 的 概念 。1983 年 , Wilbur 和 Lipman 发 表 了 数据 库 相 似 序列 搜 
索 算法 。1985 年 ,出 现 快速 的 蛋白 质 序列 搜索 算法 FASTP/FASTN ,1988 年 , Pearson 和 Lipman 
发 表 了 著名 的 序列 比较 算法 FASTA。1990 年 ,快速 相似 序列 搜索 算法 BLAST 问世 ,1997 年 ， 
BLAST 的 改进 版 本 PSI-BLAST 投 入 实际 应 用 。 





绪论 





INTRODUCTION TO BIOINFORMATICS MOLECULAR 


20 世 纪 80 年 代 以 后 ,出现 一 批 生物 信息 服务 机 构 和 生物 信息 数据 库 。1982 年 ,核酸 数据 
库 CenBank 第 3 版 公开 发 行 。1986 年 ,日 本 核酸 序列 数据 库 DDBJ 延 生 。1986 年 ,出 现 蛋 白质 
数据 库 SWISS-PROT。1988 年 ,美国 国家 卫生 研究 所 和 美国 国家 图 书馆 成 立国 家 生物 技术 信 
息 中 心 NCBI。 同 年 ,成 立 欧洲 分 子 生 物 学 网 络 ( EMBnet ), 该 网 络 专门 发 布 各 种 生物 数据 库 。 

20 世 纪 90 年 代 后 ,科学 家 们 开始 了 大 规模 的 基因 组 研究 。1986 年 , 出现 基因 组 学 
( genomics ) 概念 , 即 研究 基因 组 的 作 图 .测序 和 分 析 。1990 年 ,国际 人 类 基因 组 计划 启动 ,该 
计划 被 誉 为 生命 科学 的 “阿波 罗 登 月 计划 ”。1993 年 ,成 立 Sanger 中 心 ,该 中 心 专门 从 事 基因 
组 研究 。1995 年 ,第 一 个 细菌 基因 组 被 完全 测序 ,1996 年 ,酵母 基因 组 被 完全 测序 。1996 年 ， 
Affymetrix 生 产 出 第 一 块 DNA 芯 片 。1998 年 ,第 一 个 多 细胞 生物 一 一 线虫 的 基因 组 被 完全 测 
序 。1999 年 , 果 蝇 的 基因 组 被 完全 测序 。1999 年 年 底 , 国际 人 类 基因 组 计划 联合 研究 小 组 宣 
布 人 类 第 一 次 获得 一 对 完整 的 人 类 染色 体 一 一 第 22 对 染色 体 的 遗传 序列 。2000 年 6 月 24 日 ， 
人 类 基因 组 计划 协作 组 的 6 个 国家 研究 机 构 在 全 球 同一 时 间 宣 布 已 完成 人 类 基因 组 的 工作 
框架 图 。 与 此 同时 ,生物 信息 学 在 人 类 基因 组 计划 的 推动 之 下 迅速 发 展 。 


(二 ) 人 类 基因 组 计划 


人 类 基因 组 计划 ( human genome project, HGP ) 是 由 美国 科学 家 于 1985 年 率先 提出 ,于 
1990 年 正式 启动 的 。 美 国 、 英 国 法国、 前 西 德 .日 本 和 中 国 科 学 家 共同 参与 了 这 一 预算 达 30 
亿美 元 的 人 类 基因 组 计划 。 按 照 这 个 计划 的 设想 ,在 2005 年 ,要 把 人 体内 约 10 万 个 基因 的 密 
码 全 部 解 开 ,同时 绘制 出 人 类 基因 的 谱 图 。 换 名 话说 ,就 是 要 揭 开 组 成 人 体 4 万 个 基因 30 亿 
个 碱 基 对 的 秘密 。 人 类 基因 组 计划 与 曼哈顿 原子 弹 计划 和 阿波 罗 计 划 并 称 为 三 大 科学 计划 。 

人 类 基因 组 计划 ( HGP ) 的 目的 是 测 出 人 类 基因 组 DNA 上 30 亿 个 碱 基 对 的 序列 ,发 现 所 
有 人 类 基因 , 找 出 它们 在 染色 体 上 的 位 置 ,破译 人 类 全 部 遗传 信息 。 进 而 解码 生命 了 解 生 
命 的 起 源 、 了 解 生命 体 生长 发 育 的 规律 .认识 种 属 之 间 和 个 体 之 间 存 在 差异 的 起 因 、 认 识 
病 产生 的 机 制 以 及 长 寿 与 衰老 等 生命 现象 .为 疾病 的 诊治 提供 科学 依据 。 在 人 类 基因 组 计 
划 中 ,还 包括 对 五 种 生物 基因 组 的 研究 : 大 肠 埃 希 菌 酵母 .线虫 . 果 蝇 和 小 鼠 , 称 之 为 人 类 的 
五 种 “模式 生物 ”。 

人 类 基因 组 计划 ( HGP ) 的 主要 任务 是 人 类 的 DNA 测 序 ,包括 下 面 四 张 谱 图 ,此 外 还 有 
测序 技术 、 人 类 基因 组 序列 变异 ,功能 基因 组 技术 比较 基因 组 学 .社会 .法律 .伦理 研究 E 
物 信息 学 和 计算 生物 学 教育 培训 等 目的 ,利用 HGP 发 展 起 来 的 这 些 技术 和 资源 进行 生物 学 
研究 的 科学 家 ,促进 了 人 类 健康 。 

1. 遗传 图 谱 ( genetic map) 又 称 连锁 图 谱 ( linkage map ), 它 是 以 具有 遗传 多 态 性 (在 一 
个 遗传 位 点 上 具有 一 个 以 上 的 等 位 基因 ,在 群体 中 的 出 现 频 率 皆 高 于 1% ) 的 遗传 标记 为 “路 
PR” ,以 遗传 学 距离 (在 减 数 分 裂 事件 中 两 个 位 点 之 间 进 行 交 换 、 重 组 的 百分率 ,1% 的 重组 率 
称 为 lcM ) 为 图 距 的 基因 组 图 。 遗 传 图 谱 的 建立 为 基因 识别 和 完成 基因 定位 创造 了 条 件 。 
意义 : 6000 多 个 遗传 标记 已 经 能 够 把 人 的 基因 组 分 成 6000 多 个 区 域 , 使 得 连锁 分 析 法 可 以 找 
到 某 一 致 病 或 表现 型 基因 与 某 一 标记 邻近 (紧密 连锁 ) 的 证 据 , 这 样 可 把 这 一 基因 定位 于 这 
一 已 知 区 域 ,再 对 基因 进行 分 离 和 研究 。 对 于 疾病 而 言 , 找 基 因 和 分 析 基 因 是 关键 。 

2. 物理 图 谱 ( physical map) 物理 图 谱 是 指 有 关 构 成 基因 组 的 全 部 基因 的 排列 和 间距 
的 信息 , 它 是 通过 对 构成 基因 组 的 DNA 分 子 进行 测定 而 绘制 的 。 绘 制 物理 图 谱 的 目的 是 把 
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有 关 基 因 的 遗传 信息 及 其 在 每 条 染色 体 上 的 相对 位 置 线 性 而 系统 地 排列 出 来 。DNA 物 理 图 
谱 是 指 DNA 链 的 限制 性 酶 切片 段 的 排列 顺序 , 即 酶 切片 段 在 DNA 链 上 的 定位 。 因 限制 性 内 
切 酶 在 DNA 链 上 的 切口 是 以 特异 序列 为 基础 的 , 核 苷 酸 序列 不 同 的 DNA ,经 酶 切 后 就 会 产生 
不 同 长 度 的 DNA 片 段 ,由 此 而 构成 独特 的 酶 切 图 谱 。 因 此 , DNA 物 理 图 谱 是 DNA 分 子 结构 的 
特征 之 一 。DNA 是 很 大 的 分 子 ,由 限制 性 内 切 酶 产生 的 用 于 测序 反应 的 DNA 片 段 只 是 其 中 
极 小 部 分 ,这 些 片段 在 DNA 链 中 所 处 的 位 置 关 系 是 应 该 首先 解决 的 问题 , 故 DNA 物 理 图 谱 是 
顺序 测定 的 基础 ,也 可 理解 为 指导 DNA 测 序 的 蓝图 。 

3. 序列 图 谱 ( sequence map) ” 随 着 遗传 图 谱 和 物理 图 谱 的 完成 ,测序 就 成 为 重 中 之 重 
的 工作 。DNA 序 列 分 析 技 术 是 一 个 包括 制备 DNA 片 段 化 及 碱 基 分 析 、DNA 信 息 翻译 的 多 阶 
段 过 程 。 通 过 测序 得 到 基因 组 的 序列 图 谱 。 

4. 基因 图 谱 ( gene map) 基因 图 谱 是 在 识别 基因 组 所 包含 的 蛋白 质 编码 序列 的 基础 
上 绘制 的 结合 有 关 基 因 序 列 .位 置 及 表达 模式 等 信息 的 图 谱 。 在 人 类 基因 组 中 鉴别 出 占 
2%~5% 长 度 的 全 部 基因 的 位 置 .结构 与 功能 ,最 主要 的 方法 是 通过 基因 的 表达 产物 mRNA 反 
追 到 染色 体 的 位 置 。 

基因 图 谱 的 意义 在 于 它 能 有 效 地 反映 在 正常 或 受 控 条 件 下 表达 的 全 基因 时 空 图 。 通 过 
这 张 图 可 以 了 解 某 一 基因 在 不 同时 间 不 同 组 织 不同 水 平 的 表达 ; 也 可 以 了 解 一 种 组 织 中 不 
同时 间 、 不 同 基 因 中 不 同 水 平 的 表达 ,还 可 以 了 解 某 一 特定 时 间 、 不 同 组 织 中 的 不 同 基因 不 
同 水 平 的 表达 。 

HGP 对 人 类 疾病 基因 的 研究 有 重要 意义 ,人 类 疾病 相关 基因 是 人 类 基因 组 中 结构 和 功 
能 完整 性 至 关 重要 的 信息 。 对 于 单 基 因 病 ,采用 “定位 克隆 ”和 “定位 候选 克隆 ”的 全 新 思路 ， 
导致 了 亨廷顿 舞蹈 病 、 遗 传 性 结肠 癌 和 乳腺 癌 等 一 大 批 单 基 因 遗 传 病 致 病 基 因 的 发 现 ,为 这 
些 疾病 的 基因 诊断 和 基因 治疗 奠定 了 基础 。 对 于 心血 管 疾病 、 肿 瘤 ,糖尿 病 ,神经 精神 类 疾 
病 ( 老 年 性 痴呆 、 精 神 分 裂 症 )、 自 身 免疫 性 疾病 等 多 基因 疾病 是 目前 疾病 基因 研究 的 重点 。 
健康 相关 研究 是 HCP 的 重要 组 成 部 分 ,1997 年 相继 提出 : 肿瘤 基因 组 解剖 计划 ”“ 环 境 基 因 
组 学 计划 ” “国际 人 类 基因 组 单 体型 图 计划 (The International HapMap Project )” 


(三 ) 后 基因 组 时 代 


随 着 人 类 基因 组 计划 的 完成 ,我 们 进入 了 “后 基因 组 学 ”( post-genomics ) 时 代 。 基 因 
组 学 研究 重心 已 开始 从 揭示 生命 的 所 有 遗传 信息 转移 到 在 分 子 整体 水 平 对 功能 的 研究 上 ， 
这 种 转向 的 一 个 标志 是 产生 了 功能 基因 组 学 ( functional genomics ) 这 一 新 学 科 。 功 能 基因 组 
学 是 指 在 全 基因 组 序列 测定 的 基础 上 ,从 整体 水 平 研究 基因 及 其 产物 在 不 同时 间 、 空 间 、 条 
件 的 结构 与 功能 关系 及 活动 规律 的 学 科 。 人 类 基因 组 计划 在 基因 表达 图 谱 方 面 已 取得 一 定 
进展 ,但 它 有 90% 的 功能 尚 不 明确 ,功能 基因 组 学 将 借助 生物 信息 学 的 技术 平台 ,利用 先进 
的 基因 表达 技术 及 庞大 的 生物 功能 检测 体系 ,从 浩瀚 无 塌 的 基因 库 筛 选 并 确 知 某 一 特定 基 
因 的 功能 ,通过 比较 分 析 基 因 及 其 表达 的 状态 ,确定 基因 的 功能 内 涵 ,揭示 生命 奥秘 ,甚至 开 
发 出 基因 产品 。 功 能 基因 组 学 在 后 基因 组 时 代 占 有 重要 位 置 ,其 研究 成 果 直 接 给 人 类 健康 
带 来 福音 。 

在 后 基因 组 时 代 生 物 信息 学 的 作用 将 更 加 举足轻重 ,要 读 懂 人 类 基因 组 计划 测序 得 到 
"KB" ,仅仅 依靠 传统 的 实验 观察 手段 无 济 于 事 , 必 须 借 助 高 性 能 计算 机 和 高 效 数 据 处 理 的 
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算法 语言 。 只 有 如 此 ， 天 书 ” 才能 发 挥 它 应 有 的 价值 。 生 命 科 学 的 革命 性 巨变 已 把 生物 信 
息 学 推 到 了 前 台 , 生 物 信息 技术 已 成 为 后 基因 时 代 的 核心 技术 之 一 ,在 蛋白 质 组 学 功能 基 
因 组 学 .药物 基因 组 学 等 领域 必 将 更 有 用 武之 地 ,从 而 对 生命 科学 的 发 展 产 生 无 法 估计 的 巨 
大 影响 。 


三 .生物 信 息 学 在 未 来 生命 科学 研究 中 的 作用 >> 


21 世 纪 医 学 模式 将 发 生 革命 性 的 变化 ,生物 信息 学 也 将 发 挥 更 重要 的 作用 。 首 先 ,从 19 
世纪 末 20 世 纪 初 以 细胞 病理 学 为 基础 的 医学 模式 ,正在 向 分 子 医 学 (以 分 子 生 物 学 分子 细 
胞 学 分子 药理 学 以 及 现代 计算 机 技术 等 为 基础 ) 模 式 转变 。 人 类 基因 组 计划 正在 建立 起 人 
类 基因 与 生理 ,病理 之 间 关 系 的 知识 视图 ; 生物 领域 的 新 技术 (生物 芯片 .生物 信息 学 ) 新 的 
研究 方法 (功能 基因 组 学 .蛋白 组 学 ) 在 临床 中 逐步 得 到 应 用 ,更 新 了 医学 科学 基础 。 其 次 ， 
医疗 实践 以 循 证 医学 为 主 ,从 基因 蛋白质 等 大 分 子 水 平 研究 疾病 的 发 病 机 制 , 对 疾病 进行 
预防 .诊断 和 治疗 , 目标 是 向 特异 性 诊断 .个 体 化 治疗 发 展 。21 世 纪 ,遗传 信息 在 临床 环境 下 
的 集成 应 用 必 将 导致 个 性 化 医疗 等 新 的 临床 实践 。 未 来 10 年 预防 性 基因 检测 会 变 得 普遍 ， 
并 将 应 用 在 具有 家 族 遗 传 倾向 的 个 体 化 监测 中 ,2015 年 遗传 信息 将 会 对 临床 医学 产生 普遍 
影响 ,医生 将 通过 患者 的 基因 组 数据 与 Internet 上 可 获得 的 数据 库 ( 药 物 、 群 体 数 据 、 临 床 档 
案 ) 进行 比较 来 进行 疾病 诊断 及 指导 患者 治疗 ; 临床 医师 将 能 够 用 计算 机 输出 他 们 患者 的 
遗传 构成 ,从 而 能 够 个 性 化 有 针对 性 地 设计 给 药 。 基 于 遗传 信息 的 决策 支持 系统 A 
床 医师 解释 分 子 标记 数据 的 专家 系统 .智能 化 临床 决策 支持 系统 等 将 成 为 临床 医生 必 不 可 
少 的 工具 。 分 子 水 平生 物 信 息 检 测 设备 (基因 芯片 .蛋白 质 芯 片 、 质 谱 仪 等 ) 将 成 为 医疗 领域 
的 新 需求 。 尤 其 是 微 流 控 基因 芯片 蛋白质 芯片 技术 将 在 21 世 纪 成 熟 并 应 用 于 临床 ,因此 生 
物 芯 片 数据 分 析 技 术 及 分 析 系 统 将 成 为 临床 医生 的 常规 工具 。 

此 外 ,伴随 着 后 基因 组 时 代 高 通 量 组 学 (high-throughput omics ) 技术 涌现 与 生物 信息 学 
的 飞速 发 展 ,出 现 卫 大量 潜在 的 生物 标记 ( biomarker ), 其 中 一 些 可 以 用 于 疾病 诊断 和 治疗 。 
这 些 生物 标记 信息 在 临床 上 的 应 用 洪 力 是 巨大 的 ,然而 目前 仅 有 少数 的 标记 用 于 临床 实践 。 
如 何 将 这 些 生物 标记 应 用 于 临床 诊断 ,疾病 风险 评估 与 预防 模式 、 指 导 个 体 化 治疗 .开发 新 
的 药物 靶 点 等 将 是 未 来 生物 信息 学 研究 的 热点 问题 ,也 是 转化 医学 的 核心 内 容 。 











第 二 节 
. 生物 信息 学 的 主要 研究 内 容 





Section 2 The main research content of bioinformatics 


生物 信息 学 早期 的 研究 内 容 主要 局 限于 基因 组 序列 的 存储 和 分 析 , 随 着 基因 组 测序 数 
据 迅猛 增加 及 计算 机 技术 快速 发 展 , 特 别 是 人 类 基因 组 计划 的 顺利 完成 ,产生 了 海量 的 生物 
学 数据 。 这 些 数据 具有 丰富 的 内 涵 , 其 中 隐藏 着 丰富 的 生物 学 知识 。 充 分 利用 这 些 数据 , 通 
过 数据 分 析 、 处 理 , 揭 示 这 些 数据 的 内 涵 , 得 到 对 人 类 有 用 的 信息 ,是 生物 信息 学 家 所 面临 的 
一 个 严峻 的 挑战 。 因 此 ,生物 信息 学 的 研究 内 容 也 在 得 到 不 断 的 丰富 和 补充 。 从 目前 生物 
信息 学 的 研究 内 容 来 看 ,大 致 包 括 以 下 几 个 方面 : 基因 组 信息 学 转录 组 信息 学 .蛋白质 组 信 
息 学 和 代谢 组 信息 学 。 


一 、 基 因 组 信息 学 >> 


基因 组 是 指 一 种 微生物 (包括 细菌 和 病毒 ) 或 其 他 生物 体 细胞 中 的 总 DNA 或 RNA( 反 转 
录 病 毒 ), 包 括 核 DNA 细胞 器 DNA( 动 植物 线粒体 DNA 和 植物 叶绿体 DNA ) 和 染色 体外 遗传 
成 分 (如 细菌 的 质粒 DNA )。 随 着 人 类 基因 组 计划 ( HGP ) 的 实施 ,产生 了 大 量 的 基因 组 信息 ， 
分 析 这 些 信息 是 生物 信息 学 的 重要 内 容 。 人 类 基因 组 共有 约 30 亿 个 碱 基 对 ,对 如 此 大 量 的 
信息 数据 进行 搜集 、 存 储 及 分 配 是 生物 学 领域 从 未 遇 到 过 的 问题 。 这 些 数据 中 包括 编码 人 
类 全 部 蛋白 质 和 结构 核糖 核酸 ( RNA ) 的 信息 ,以 及 调控 这 些 蛋 白质 和 核酸 装配 成 生物 体 的 
信息 。 因 此 解读 这 些 信息 是 一 个 很 大 的 难题 。 基 因 组 信息 学 的 主要 目标 就 是 配合 人 类 基因 
组 计划 的 各 项 实验 研究 ,测定 人 类 基因 组 的 完整 核 苷 酸 序列 ,确定 约 10 万 个 人 类 基因 在 染色 
体 上 的 位 置 ,以 及 研究 包括 基因 在 内 的 各 种 DNA 片 段 的 功能 ,也 就 是 “ 读 懂 ”人 类 基因 组 。 

基因 组 信息 学 涉及 基因 组 信息 的 获取 、 处 理 存储、 分 配 、 分 析 和 解释 等 所 有 方面 。 具 体 
而 言 ,就 是 要 构建 研究 基因 组 的 数据 库 ,发 展 包括 算法 、 软 件 、 硬 件 在 内 的 有 效 的 信息 分 析 工 
具 以 及 完善 与 基因 组 研究 相关 的 国际 互联 网 络 。 随 着 基因 组 信息 学 研究 的 不 断 完善 和 深入 ， 
目前 生物 信息 学 涉及 的 基因 组 信息 学 研究 主要 包括 比较 基因 组 学 .功能 基因 组 学 和 药物 基 
因 组 学 等 。 


(一 ) 比较 基因 组 学 
比较 基因 组 学 ( comparative genomics ) 是 基于 基因 组 图 谱 和 测序 基础 上 ,对 已 知 的 基因 
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和 基因 组 结构 进行 比较 ,来 了 解 基因 的 功能 .表达 机 制 和 物种 进化 的 学 科 。 利 用 模式 生物 基 
因 组 与 人 类 基因 组 之 间 编 码 顺序 上 和 结构 上 的 同 源 性 ,克隆 人 类 疾病 基因 ,揭示 基因 功能 和 
疾病 分 子 机 制 , 阐 明 物 种 进化 关系 ,及 基因 组 的 内 在 结构 。 比 较 基 因 组 学 的 基础 是 相关 生物 
基因 组 的 相似 性 。 两 种 具有 较 近 共同 祖先 的 生物 ,它们 之 间 具 有 种 属 差别 的 基因 组 是 由 祖 
先 基因 组 进化 而 来 ,两 种 生物 在 进化 的 阶段 上 越 接近 ,它们 的 基因 组 相关 性 就 越 高 。 如 果 生 
物 之 间 存 在 很 近 的 亲缘 关系 ,那么 它们 的 基因 组 就 会 表现 出 同 线性 ( synteny ), 即 基因 序列 的 
部 分 或 全 部 保守 。 这 样 就 可 以 利用 模 基 因 组 之 间 编 码 顺 序 上 和 结构 上 的 同 源 性 ,通过 已 知 
基因 组 的 作 图 信息 定位 另外 基因 组 中 的 基因 ,从 而 揭示 基因 潜在 的 功能 阐明 物 种 进化 关系 
及 基因 组 的 内 在 结构 。 

早期 的 比较 基因 组 研究 中 ,模式 生物 基因 组 被 用 于 研究 人 类 疾病 基因 的 功能 ,利用 基 
因 顺 序 上 的 同 源 性 克隆 人 类 疾病 基因 。 利 用 模式 生物 实验 系统 上 的 优越 性 ,在 人 类 基因 组 
研究 中 的 应 用 比较 作 图 分 析 复 杂 性 状 ,加 深 对 基因 组 结构 的 认识 。 此 外 ,通过 对 不 同 亲缘 关 
系 物种 的 基因 组 序列 进行 比较 ,能 够 鉴定 出 编码 序列 \ 非 编码 调控 序列 及 给 定 物种 独 有 的 序 
列 。 而 基因 组 范围 之 内 的 序列 比 对 ,可 以 了 解 不 同 物种 在 核 苷 酸 组 成 、 同 线性 关系 和 基因 顺 
序 方面 的 异同 ,进而 得 到 基因 分 析 预 测 与 定位 .生物 系统 发 生 进 化 关系 等 方面 的 信息 。 同 种 
群体 内 的 比较 基因 组 研究 则 发 现 基 因 组 存在 大 量 的 变异 和 多 态 性 ,而 正 是 这 种 基因 组 序列 
的 差异 构成 了 不 同 个 体 与 群体 对 疾病 的 易 感 性 和 对 药物 与 环境 因子 不 同 反 应 的 遗传 学 基 
础 。 目 前 最 常见 的 变异 和 多 态 性 包括 单 核 苷 酸 多 态 性 ( single-nucleotide polymorphism, SNP ) 
和 拷贝 数 变异 ( copy number variant, CNV )。 


(二 ) 功能 基因 组 学 


功能 基因 组 学 ( functional genomics ) 又 被 称 为 后 基因 组 学 ( post-genomics ), 它 利用 结构 
基因 组 所 提供 的 信息 和 产物 ,发 展 和 应 用 新 的 实验 手段 ,通过 在 基因 组 或 系统 水 平 上 全 面 分 
析 基 因 的 功能 ,使 得 生物 学 研究 从 对 单一 基因 或 蛋白 质 的 研究 转向 多 个 基因 或 蛋白 质 同时 
进行 系统 的 研究 。 这 是 在 基因 组 静态 的 碱 基 序 列 弄 清楚 之 后 转 和 人 对 基因 组 动态 的 生物 学 功 
能 学 研究 。 

功能 基因 组 的 一 个 重要 任务 是 进行 基因 组 功能 注释 ( genome annotation ), 了解 基因 的 功 
能 ,认识 基因 与 疾病 的 关系 ,掌握 基因 的 产物 及 其 在 生命 活动 中 的 作用 。 在 使 用 全 局 方法 进 
行 研究 时 ,研究 人 员 同 时 检测 大 量 基 因 的 表达 水 平 ,从 而 在 整体 水 平 上 获得 关于 基因 功能 及 
基因 之 间 相 互 作用 的 信息 。 如 果 说 生物 信息 学 在 人 类 基因 组 计划 中 的 着 重点 是 基因 组 序列 
的 话 ,那么 在 功能 基因 组 中 ,生物 信息 学 的 着 重点 则 是 序列 的 生物 学 意义 ,基因 组 编码 序列 
的 转录 、 翻 译 过 程 和 结果 ,着 重 分 析 基 因 表达 调控 信息 ,分 析 基 因 及 其 产物 的 功能 。 在 功能 
基因 组 时 代 , 应 用 生物 信息 学 方法 ,高 通 量 的 注释 基因 组 所 有 编码 产物 的 生物 学 功能 是 一 个 
重要 的 特征 。 功 能 基因 组 学 的 研究 主要 包括 以 下 几 个 方面 的 内 容 , 并 且 这 几 方 面 都 与 生物 
信息 学 密切 相关 : 中 进一步 识别 基因 ,识别 基因 转录 调控 信息 ,分 析 遗 传 语言 ; @ 注 释 所 有 
基因 产物 的 功能 ,这 是 目前 基因 组 功能 注释 的 主要 层次 。 序 列 同 源 性 分 析 生物 信息 关联 分 
析 、 生 物 数据 挖掘 是 进行 功能 注释 的 主要 生物 信息 学 手段 ; @ 研 究 基因 的 表达 调控 机 制 , 研 
究 基 因 在 生物 体 代 谢 途 径 中 的 地 位 ,分 析 基 因 、 基 因 产 物 之 间 的 相互 作用 关系 ,绘制 基因 调 
控 网 络 图 。 
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(=) 药物 基因 组 学 


药物 基因 组 学 ( pharmacogenomics ) 又 被 称 为 基因 组 药物 学 或 基因 组 药理 学 ,是 生物 信 
息 学 的 一 个 重要 分 支 , 定 义 为 在 基因 组 学 的 基础 上 ,通过 将 基因 表达 或 单 核 昔 酸 的 多 态 性 与 
药物 的 疗效 或 毒性 联系 起 来 ,研究 药物 如 何 由 于 遗传 变异 而 产生 不 同 的 作用 。 药 物 基 因 组 
学 根据 患者 的 基因 型 来 保证 最 大 疗效 的 同时 将 不 良 反 应 降 到 最 低 ,用 于 探索 合理 的 方法 来 
优化 药物 治疗 方案 。 这 样 的 方法 使 得 个 体 化 治疗 ( personalized medicine ) 出 现 , 可 以 根据 每 
个 人 独特 的 基因 组 成 来 制定 最 佳 的 药物 或 合并 用 药 治 疗 方案 。 

药物 基因 组 学 可 以 说 是 基因 功能 学 与 分 子 药理 学 的 有 机 结合 ,在 很 多 方面 这 种 结合 是 
非常 必要 的 。 药 物 基 因 组 学 区 别 于 一 般 意义 上 的 基因 学 , 它 不 是 以 发 现 人 体 基 因 组 基因 为 
主要 目的 ,而 是 相对 简单 地 运用 已 知 的 基因 理论 改善 患者 的 治疗 。 药 物 基因 组 学 以 药物 效 
应 及 安全 性 为 目标 ,人 研究 各 种 基因 突变 与 药 效 及 安全 性 的 关系 。 正 因为 药物 基因 组 学 是 研 
究 基 因 序 列 变异 及 其 对 药物 不 同 反应 的 科学 ,所 以 它 是 研究 高 效 、 特 效 药物 的 重要 途径 , 通 
过 它 为 患者 或 者 特定 人 群 寻找 合适 的 药物 ,药物 基因 组 学 强调 个 体 化 ,有 重要 的 理论 意义 和 
广阔 的 应 用 前 景 。 如 当前 对 基因 的 研究 可 发 现 带 有 某 种 特定 基因 的 人 ,会 对 某 种 特定 的 药 
物 成 分 ,产生 某 种 特定 反应 。 将 这 个 基因 ,药物 成 分 与 服用 后 反应 的 一 连 串 关联 ,运用 在 用 
药 之 上 ,就 可 知道 带 有 某 特定 基因 之 人 ,不 适合 服用 含有 某 特定 成 分 的 药物 ,进而 降低 药物 
副作用 产生 的 风险 ; 反之 ,也 可 以 知道 带 有 某 特定 基因 之 人 ,特别 适合 服用 含有 某 特定 成 分 
的 药物 ,进而 提升 治愈 疾病 的 几率 。 


二 、 转 录 组 信息 学 >> 


转录 组 学 ( transcriptomics ) 是 一 门 在 整体 水 平 上 研究 细胞 中 基因 转录 的 情况 及 转录 调 
控 规 律 的 学 科 。 转 录 组 即 一 个 活 细胞 所 能 转录 出 来 的 所 有 RNA 的 总 和 ,是 从 RNA 水 平 研 究 
基因 表达 的 情况 ,是 研究 细胞 表 型 和 功能 的 一 个 重要 手段 。 转 录 组 是 连接 基因 组 遗传 信息 
与 生物 功能 的 蛋白 质 组 的 纽带 ,转录 水 平 的 调控 是 最 重要 也 是 目前 研究 最 广泛 的 生物 体 调 
控 方 式 。 转 录 组 信息 学 是 生物 信息 学 的 重要 分 支 , 负 责 研究 在 特定 细胞 类 型 内 所 生产 的 
RNA 分 子 ,探讨 在 一 个 特定 的 细胞 群 内 的 基因 表达 水 平和 调控 情况 ,通常 采用 基于 DNA 世 片 
技术 的 高 通 量 技术 ,最 近 发 展 起 来 的 新 一 代 测序 技术 也 广泛 用 来 研究 转录 组 。 人 类 基因 组 
包含 有 30 亿 个 碱 基 对 ,其 中 大 约 只 有 5 万 个 基因 转录 成 mRNA 分 子 , 而 转录 后 的 mRNA 仅 部 分 
被 翻译 生成 功能 性 的 和 蛋白质。 与 基因 组 不 同 , 转 录 组 更 有 时 间 空 间 性 。 我 们 人 体 大 部 分 细 
胞 具有 一 模 一 样 的 基因 ,而 即使 同一 细胞 在 不 同 的 生长 时 期 及 生长 环境 下 ,其 基因 表达 情况 
也 是 不 完全 相同 的 。 所 以 ,除了 异常 的 mRNA 降解 现象 (如 转录 衰减 ) 以 外 ,转录 组 反映 的 是 
特定 条 件 下 活跃 表达 的 基因 。 同 时 ,蛋白 质 组 研究 需要 更 多 的 转录 组 研究 的 信息 。 因 为 单 
一 的 蛋白 质 组 数据 不 足以 清楚 地 鉴定 基因 的 功能 ,因此 人 蛋 白质 组 的 数据 也 需要 转录 组 的 人 研 
究 结果 加 以 印证 。 因 此 ,转录 组 的 研究 可 以 推断 相应 未 知 基因 的 功能 ,揭示 特定 调节 基因 的 
作用 机 制 。 通 过 对 转录 组 的 研究 ,科研 人 员 还 可 以 确定 不 同 种 类 的 细胞 和 组 织 的 基因 在 何 
时 何 地 被 激活 或 进入 睡眠 ,对 转录 本 的 定量 可 以 了 解 特定 基因 的 活性 和 表达 量 , 用 于 疾病 的 
诊断 和 治疗 ,比如 与 癌症 相关 的 基因 表达 量 的 改变 可 以 帮助 我 们 揭 开 癌症 的 秘密 。 
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(一 ) 基因 表达 图 谱 


以 DNA 为 模板 合成 RKNA 的 转录 过 程 是 基因 表达 的 第 一 步 ,也 是 基因 表达 调控 的 关键 环 
节 。 所 请 基因 表达 ,是 指 基因 携带 的 遗传 信息 转变 为 可 辨别 的 表 型 的 整个 过 程 。 与 基因 组 
不 同 的 是 ,转录 组 的 定义 中 包含 了 时 间 和 空间 的 限定 。 同 一 细胞 在 不 同 的 生长 时 期 及 生长 
环境 下 ,其 基因 表达 情况 是 不 完全 相同 的 。 通 过 测序 技术 揭示 造成 差异 的 情况 ,已 是 目前 最 
常用 的 手段 。 人 类 基因 组 包含 有 30 亿 个 碱 基 对 ,其 中 大 约 只 有 5 万 个 基因 转录 成 mRNA 分 子 ， 








.转录 后 的 mRNA 能 被 翻译 生成 蛋白 质 的 也 只 占 整个 转录 组 的 40% 左 右 。 通 常 同 一 种 组 织 


达 几 乎 相同 的 一 套 基 因 以 区 别 于 其 他 组 织 , 如 脑 组 织 或 心肌 组 织 等 分 别 只 表达 全 部 基因 中 
不 同 的 30% 而 显示 出 组 织 的 特异 性 。 

转录 组 谱 可 以 提供 什么 条 件 下 什么 基因 表达 的 信息 ,并 据 此 推断 相应 未 知 基因 的 功能 ， 
揭示 特定 调节 基因 的 作用 机 制 。 通 过 这 种 基于 基因 表达 谱 的 分 子 标签 ,不 仅 可 以 辨别 细胞 
的 表 型 归属 ,还 可 以 用 于 疾病 的 诊断 。 同 样 对 那些 临床 表现 不 明显 或 者 缺乏 诊断 金 标准 的 
疾病 也 具有 诊断 意义 ,如 自 闭 症 。 目 前 对 自 闭 症 的 诊断 要 靠 长 达 十 多 个 小 时 的 临床 评估 才 
能 做 出 判断 。 基 础 研究 证 实 自 闭 症 不 是 由 单一 基因 引起 ,而 很 可 能 是 由 一 组 不 稳定 的 基因 
造成 的 一 种 多 基因 病变 ,通过 比 对 正常 人 群 和 患者 的 转录 组 差异 ,筛选 出 与 疾病 相关 的 具有 
诊断 意义 的 特异 性 表达 差异 ,一旦 这 种 特异 的 差异 表达 谱 被 建立 ,就 可 以 用 于 自 财 症 的 诊 
断 , 以 便 能 更 早 地 ,甚至 可 以 在 出 现 自 闭 症 临床 表现 之 前 就 对 疾病 进行 诊断 ,并 及 早 开始 干 
预 治疗 。 转 录 组 的 研究 应 用 于 临床 的 男 一 个 例子 是 可 以 将 表面 上 看 似 相 同 的 病症 分 为 多 个 
亚 型 ,尤其 是 对 原 发 性 恶性 肿瘤 ,通过 转录 组 差异 表达 谱 的 建立 ,可 以 详细 描绘 出 患者 的 生 
存 期 以 及 对 药物 的 反应 等 。 


(二 ) 转录 调控 网 络 


基因 表达 是 指 基因 在 生物 体内 的 转录 、 剪 接 .翻译 以 及 转变 成 具有 生物 活性 的 蛋白 质 
分 子 之 前 的 所 有 加 工 过 程 。 人 类 基因 组 大 约 有 两 万 多 个 基因 ,但 是 在 单个 细胞 中 ,同时 表达 
的 基因 往往 只 有 几 千 甚至 几 百 个 ,而 且 很 多 基因 只 在 特定 组 织 或 发 育 阶段 表达 。 从 一 套 基 
本 不 变 的 基因 组 中 产生 出 多 元 化 的 细胞 类 型 是 由 调控 基因 活性 的 各 种 信号 途径 所 控制 。 真 
核 生物 转录 起 始 十 分 复杂 ,往往 需要 多 种 蛋白 因子 的 协助 ,转录 因子 与 RNA 聚 合 酶 下 形成 转 
录 起 始 复合 物 ,共同 参与 转录 起 始 的 过 程 。 作 为 基因 表达 的 第 一 步 一 一 转录 是 调控 机 制 的 
中 心 。 转 录 调 控 因 子 ( transcription factors, TFs ), 也 称 之 为 反 式 作用 因子 (trans-acting factor ) 
有 序 地 结合 在 目标 基因 启动 子 ( promoter ) 序列 中 的 特殊 位 点 ,启动 基因 的 转录 和 控制 基因 
的 转录 效率 。 这 些 位 点 被 称 为 转录 因子 结合 位 点 ( transcription factor binding sites， TFBSs ), 
又 被 称 为 顺 式 调控 元 件 ( cis-regulatory elements ), 其 长 度 从 几 个 到 十 几 个 碱 基 对 不 等 。 每 个 
转录 因子 的 结合 位 点 通常 都 有 特定 的 模式 ,被 称 为 模 体 ( motif )。 找 到 这 些 特 定 的 序列 片段 
对 研究 基因 的 转录 调控 有 着 重要 意义 。 


(三 ) 转录 组 测序 


基于 高 通 量 测序 平台 的 转录 组 测序 技术 使 能 够 在 单 核 苷 酸 水 平 对 任意 物种 的 整体 转录 
活动 进行 检测 ,在 分 析 转 录 本 的 结构 和 表达 水 平 的 同时 ,还 能 够 发 现 未 知 转录 本 和 稀有 转录 
本 ,精确 的 识别 可 变 剪 接 位 点 以 及 cSNP( 编码 序列 单 核 芽 酸 多 态 性 ), 提供 最 全 面 的 转录 组 信 
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息 。 相 对 于 传统 的 芯片 杂交 平台 ,转录 组 测序 无 需 预先 针对 已 知 序列 设计 探 针 , 即 可 对 任意 
物种 的 整体 转录 活动 进行 检测 ,提供 更 精确 的 数字 化 信号 ,更 高 的 检测 通 量 以 及 更 广泛 的 检 
测 范 围 ,是 目前 深入 研究 转录 组 复杂 性 的 强大 工具 。 

随 着 二 代 测 序 技术 的 发 展 ,测序 成 本 大 幅度 降低 ,大 规模 转录 组 测序 将 成 为 转录 组 研 
究 的 重要 方法 。 多 项 研究 已 经 表明 ,二 代 测 序 技术 的 应 用 ,能 有 效 改善 诸如 EST、SAGE、 
CAGE、MPSS、PET 和 全 长 cDNA 测 序 等 传统 转录 组 研究 方法 的 结果 ,使 之 得 到 大 大 的 提升 。 
基于 转录 组 高 通 量 测序 的 种 种 技术 优势 ,此 种 技术 应 用 范围 较 广 ,主要 有 转录 本 结构 研究 
(基因 边界 鉴定 、 可 变 剪 接 研 究 等 ), 转 录 本 变异 研究 (如 基因 融合 .编码 区 SNP 研 究 ), 非 编码 
区 域 功 能 研究 ( Non-coding RNA 人 研究、microRNA 前 体 研 究 等 ), 基 因 表 达 水 平 研究 以 及 全 新 
转录 本 发 现 。 


三 、 蛋 白质 组 信息 学 >> 


20 世 纪 90 年 代 中 期 ,在 人 类 基因 组 计划 研究 及 功能 基因 组 学 的 基础 上 ,产生 了 在 整体 水 
平 上 研究 细胞 内 蛋白 质 的 组 成 及 其 活动 规律 的 学 科 一 一 蛋白 质 组 学 ( proteomics )。 和 蛋白 质 
组 学 以 蛋白 质 组 为 研究 对 象 ,蛋白 质 组 是 某 种 生物 所 能 表达 的 所 有 和 蛋白 质 , 即 包括 一 种 细胞 
万 至 一 种 生物 所 表达 的 全 部 蛋白 质 ,它们 都 是 由 RNA 从 基因 那里 转录 、 剪 辑 信息 后 选择 性 拼 
接 和 修饰 产生 。 而 RNA 转 录 或 RNA 剪 辑 的 选择 性 拼接 和 转录 后 的 修饰 能 够 产生 比 基 因 编码 
数目 多 得 多 的 蛋白 质 , 从 而 成 为 该 种 生物 巨大 的 蛋白 质 组 。 蛋 白质 组 信息 学 通过 对 正常 个 
体 及 病理 个 体 间 的 蛋白 质 组 比较 分 析 ,找到 某 些 “疾病 特异 性 的 蛋白 质 分 子 ” ,它们 可 成 为 新 
药物 设计 的 分 子 靶 点 ,或 者 也 会 为 疾病 的 早期 诊断 提供 分 子 标志 。 蛋 白质 组 信息 学 人 研究 不 
仅 能 为 生命 活动 规律 提供 物质 基础 ,也 能 为 众多 种 疾病 机 制 的 阐明 及 攻克 提供 理论 根据 和 
解决 途径 。 


(一 ) 结构 蛋白 质 组 学 


结构 蛋白 质 组 学 又 称 组 成 蛋白 质 组 学 ,是 一 种 针对 有 基因 组 或 转录 组 数据 库 的 生物 体 
或 组 织 细胞 ,建立 其 蛋白 质 或 亚 蛋 白质 组 (或 蛋白 质 表达 谱 ) 及 其 蛋白 质 组 连锁 群 的 一 种 全 
景 式 的 蛋白 组 学 研究 ,从 而 获得 对 有 机 体 生命 活动 的 全 景 式 认 识 。 大 规模 的 全 基因 组 测序 
计划 正 产生 越 来 越 多 的 序列 信息 ,而 理解 这 些 信息 的 关键 是 理解 基因 产物 一 一 蛋白 质 的 功 
能 。 在 后 基因 组 时 代 , 蛋 白质 的 三 维 结构 解析 是 揭示 生命 密码 的 重要 部 分 。 随 着 技术 进步 
和 大 量 来 自 公 共 机 构 和 私人 企业 的 资金 投入 ,结构 蛋白 质 组 学 研究 开始 启动 , 它 的 目标 是 采 
用 工业 化 生产 的 方式 在 基因 组 规模 去 大 量 测定 蛋白 质 的 结构 。 这 将 会 改变 结构 生物 学 家 的 
研究 方式 。 蛋 白质 结 构 测定 的 流程 ,从 cDNA 的 克隆 到 数据 收集 ,大 部 分 将 实现 自动 化 ,结构 
蛋白 质 组 学 是 实验 和 理论 计算 相 结合 的 多 学 科 交 叉 的 领域 。 目 前 ,结构 蛋白 质 组 学 仍然 面 
临 着 许多 技术 上 的 挑战 ,这 些 挑战 也 带 来 了 很 多 机 遇 ,结构 蛋白 质 组 学 产生 的 大 量 结构 信息 
将 是 一 笔 巨 大 的 财富 , 它 将 给 制药 行业 带 来 重大 变化 。 近 年 来 ,基于 蛋白 结构 的 合理 药物 设 
计 在 制药 行业 非常 流行 。 同 时 , 它 也 必 将 给 生物 学 领域 带 来 一 场 革命 。 


(二 ) 药物 蛋白 质 组 学 
将 蛋白 组 学 的 概念 用 于 药物 研究 领域 ,通过 对 比 健康 状态 与 疾病 状态 的 细胞 或 组 织 芯 
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蛋白 质 组 表达 差异 ,用 于 药物 研究 或 药物 受 体 的 研究 或 药物 治疗 前 后 蛋白 质 表 达 状 况 的 总 
体 ,以 评价 药物 类 似 物 的 结构 与 活性 关系 ,寻找 高 活性 的 药物 ,由 此 发 展 起 来 的 一 门 学 科 称 
之 为 药物 蛋白 质 组 学 。 药 物 蛋 白质 组 学 在 药物 研发 过 程 中 起 着 极其 重要 的 作用 ,药物 蛋白 
质 组 学 的 重要 研究 内 容 在 临床 前 包括 新 药 和 靶 的 发 现 药物 作用 模式 、 毒 理学 研究 ,在 临床 
研究 方面 包括 疾病 特异 性 蛋白 作为 有 效 患者 选择 的 依据 和 临床 试验 的 标志 。 应 用 类 似 于 药 
物 遗 传 学 的 方法 ,按照 蛋白 质谱 来 分 类 患者 ,并 预测 药物 作用 疗效 。 蛋 白质 组 学 和 药物 蛋白 
质 组 学 研究 当前 还 处 在 一 个 初期 发 展 阶段 ,甚至 连 定义 还 没有 来 得 及 完善 ,相关 的 技术 手段 
及 其 配套 应 用 还 很 不 成 熟 。 但 这 个 领域 研究 之 初 , 对 基础 研究 和 实际 应 用 的 期 望 就 表现 出 
强烈 结合 的 趋势 。 随 着 蛋白 质 组 学 ,药物 蛋白 质 组 学 研究 的 兴起 ,人 们 将 在 蛋白 质 水 平 上 重 
新 认识 诸如 生长 .发育 和 代谢 调控 等 生命 活动 的 规律 ,为 研究 重大 疾病 的 机 制 ,疾病 诊断 、 防 
治 和 新 药 开 发 提供 重要 的 理论 基础 ,并 正在 成 为 生物 技术 药物 发 展 的 根本 动力 ,并 明显 加 快 
新 诊断 和 治疗 方法 的 开发 。 


四 、 代 谢 组 信息 学 >> 


代谢 组 学 ( metabonomies or metabolomics ) 是 效仿 基因 组 学 和 蛋白质 组 学 的 研究 思想 ,对 
生物 体内 所 有 代谢 物 进行 定量 分 析 , 并 寻找 代谢 物 与 生理 病理 变化 相对 关系 的 研究 方式 ,是 
系统 生物 学 的 组 成 部 分 。 其 研究 对 象 大 都 是 相对 分 子 质量 1000 以 内 的 小 分 子 物质 。 代 谢 组 
包括 组 织 细胞 代谢 组 和 系统 整体 代谢 组 。 其 中 组 织 细胞 代谢 组 是 指 是 指 某 个 时 间 点 上 一 个 
细胞 所 有 代谢 物 的 集合 ,尤其 指 在 不 同 代 谢 过 程 中 充当 底 物 和 产物 的 小 分 子 物质 ,如 脂 质 、 
糖 和 氨基 酸 等 ,可 以 揭示 取样 时 该 细胞 的 生理 状态 ,人 类 中 有 上 万 亿 个 不 同类 型 的 细胞 , 它 
们 具有 潜在 不 同 的 组 织 细胞 代谢 组 。 基 因 和 和 蛋白 质 只 是 为 细胞 发 生 的 活动 做 准备 ,活动 中 
大 部 分 实际 上 是 发 生 在 代谢 物 上 ,如 信号 转 导 、 能 量 转移 细胞 间 通 信 都 受 代谢 物 调控 。 进 
一 步 说 ,基因 和 和 蛋白 表达 紧密 相连 ,但 代谢 物 行为 更 密切 地 反映 出 细胞 所 处 的 环境 ,该 环境 
依赖 于 细胞 所 摄取 的 营养 状况 ,所 接触 的 药物 和 污染 物 以 及 其 他 影响 细胞 健康 的 外 在 因子 
情况 。 也 可 以 这 么 说 ,基因 组 学 和 蛋白质 组 学 只 是 告诉 人 们 细胞 中 可 能 发 生 的 行为 ,而 组 织 
细胞 组 学 告诉 人 们 细胞 实际 中 所 发 生 的 行为 。 而 组 织 细胞 代谢 组 学 是 研究 生物 样品 ,尤其 
是 尿 液 .唾液 和 血液 中 的 代谢 物 谱 ( 主 要 是 指 含有 哪些 代谢 物 , 丰 度 和 分 布 状 况 等 ) 变 化 规律 
的 新 学 科 。 

(一 ) 疾病 代谢 组 学 


疾病 代谢 组 学 作为 应 用 驱动 的 新 兴 科 学 ,已 在 微生物 和 植物 研究 ,药物 毒性 和 机 制 研 
究 疾病 诊断 和 动物 模型 .基因 功能 的 阐明 等 领域 获得 了 较 广 泛 的 应 用 ,与 疾病 相关 的 代谢 
组 学 方法 与 应 用 研究 是 目前 代谢 组 学 研究 的 热点 之 一 ,广泛 应 用 于 病变 标志 物 的 发 现 ,疾病 
的 诊断 治疗 和 预后 判断 。 任 何 疾病 的 发 生 和 发 展 都 会 影响 机 体 代谢 ,从 而 导致 体液 中 代谢 
物质 发 生 显著 变化 ,通过 比较 机 体 生理 与 疾病 状态 ,甚至 是 同一 疾病 不 同 分 型 的 代谢 物 的 不 
同 ,将 能 找到 与 疾病 诊断 及 分 型 相关 的 标志 性 代谢 物 ,从 而 发 现 表征 这 些 疾病 的 化 学 特征 模 
式 , 代 谢 组 学 正好 适应 这 一 发 展 趋势 。 

生物 机 体 的 代谢 在 正常 情况 下 处 于 一 种 动态 的 平衡 中 ,而 当 机 体 患 病 或 出 现 某 种 病变 ， 
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就 会 打破 这 种 动态 的 平衡 ,引起 机 体内 部 代谢 的 亲 乱 ,而 这 些 代谢 的 亲 乱 ,也 通常 会 使 机 体 
的 血液 \ 尿 液 或 其 他 组 织 液 发 生 一 定 的 变化 。 因 为 机 体 的 正常 生理 活动 需要 通过 体内 的 各 
个 循环 系统 的 平衡 协作 而 得 到 保证 ,包括 血液 循环 、 尿 的 排泄 。 对 尿 液 和 血液 等 体液 代谢 组 
进行 检测 和 分 析 , 就 有 可 能 对 疾病 从 发 病 到 病情 不 断 变 化 的 整个 过 程 进行 了 解 和 认识 ,就 有 
可 能 发 现 与 疾病 发 生 相 关 的 生物 标志 物 并 认识 相关 的 病理 发 生机 制 ,就 可 以 对 疾病 在 其 发 
病 之 前 或 发 病 之 初 进行 预防 \ 诊 断 和 治疗 ,或 者 根据 疾病 不 同 阶段 的 特征 进行 个 性 化 的 治 
疗 ,达到 更 好 的 治疗 效果 。 
(二 ) 药物 代谢 组 学 


药物 代谢 组 学 ( pharmacometabonomics ) 是 研究 药物 作用 于 细胞 靶 分 子 之 后 所 形成 的 代 
谢 产物 的 分 子 特征 的 科学 。 从 人 类 组 织 及 体液 ,如 汗液 .血液 . 尿 液 等 这 些 人 类 生命 过 程 代 
谢 物质 中 药物 作用 过 程 中 的 代谢 物 分 子 的 分 析 可 以 推断 药物 作用 于 靶 分 子 的 过 程 ,用 于 阐 
述 药物 作用 的 化 学 机 制 。 不 同 于 传统 的 药物 代谢 动力 学 ,药物 代谢 组 学 不 仅仅 关注 药物 分 
子 本 身 在 作用 于 靶 分 子 后 的 代谢 产物 ,还 关注 药物 与 靶 分 子 和 非 靶 分 子 作 用 后 的 代谢 产物 ， 
以 及 这 些 产 物 之 间 以 及 它们 与 无 药物 作用 的 代谢 产物 发 生化 学 反应 之 后 的 产物 。 
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第 三 节 


当前 生物 信息 学 研究 的 热点 





Section 3 The hotspot of current bioinformatics research 


自从 1987 年 出 现 bioinformatics 这 一 词汇 以 来 ,生物 信息 学 的 研究 任务 随 着 科研 和 现实 需 
要 的 变化 而 几经 更 迭 。 当 前 ,一般 认 为 ,生物 信息 学 主要 是 一 门 研究 生物 学 系统 和 生物 学 过 
程 中 的 信息 流 的 综合 系统 科学 ,通过 它 独特 的 桥梁 作用 和 整合 作用 ,使 我 们 能 够 从 各 生物 学 
科 中 众多 分 散 的 观测 资料 中 获得 对 生物 学 系统 和 生物 学 过 程 的 运作 机 制 的 理解 ,最 终 达到 
自由 应 用 于 相关 实践 的 目的 。 例 如 ,就 疾病 而 言 ,生物 信息 学 就 是 要 系统 地 理解 导致 机 体 功 
能 异常 的 生物 机 制 并 从 而 得 出 科学 的 治疗 方案 ; 就 生物 演化 而 言 ,生物 信息 学 就 是 要 系统 地 
解释 生物 界 演化 的 从 微观 分 子 水 平 到 宏观 形体 功能 水 平 的 根本 原则 ,从 而 使 人 类 更 好 地 认 
识 自己 在 自然 界 中 的 地 位 ,科学 地 认识 和 改造 人 类 的 未 来 。 因 此 与 以 往 相 比 ,生物 信息 学 无 
论 从 认识 水 平 上 还 是 从 实践 水 平 上 都 开创 了 一 种 撕 新 的 模式 。 


一 、 新 一 代 测 序数 据 的 生物 信息 学 分 析 》》 


DNA 测 序 ( DNA sequencing ) 作 为 一 种 重要 的 实验 技术 ,在 生物 学 研究 中 有 着 广泛 的 应 用 。 
早 在 DNA 双 螺旋 结构 ( Watson and Crick,1953 ) 被 发 现 后 不 久 就 有 人 报道 过 DNA 测 序 技术 ,但 
是 当时 的 操作 流程 复杂 , 没 能 形成 规模 。 随 后 在 1977 年 Sanger 发 明了 具有 里 程 碑 意 义 的 未 端 
终止 测序 法 ,同年 A.M.Maxam 和 W.Gilbert 发 明了 化 学 降解 法 。Sanger 法 因为 既 简 便 又 快速 ,并 
经 过 后 续 的 不 断 改良 ,成 为 迄今 为 止 DNA 测 序 的 主流 。 然 而 随 着 科学 的 发 展 , 传 统 的 Sanger 测 
序 已 经 不 能 完全 满足 研究 的 需要 ,对 模式 生物 进行 基因 组 重 测序 以 及 对 一 些 非 模式 生物 的 基 
因 组 测序 , 都 需要 费用 更 低 ` 通 量 更 高 .速度 更 快 的 测序 技术 , 新 一 代 测 序 技术 ( next—generation 
sequencing ) 应 运 而 生 。 新 一 代 测 序 技术 的 核心 思想 是 边 合成 边 测序 ( sequencing by synthesis ), 
即 通过 捕捉 新 合成 的 末端 标记 来 确定 DNA 的 序列 , 现 有 的 技术 平台 主要 包括 Roche/454 FLX、 
Illumina/Solexa Genome Analyzer 和 Applied Biosystems SOLID System. 

随 着 高 通 量 新 一 代 测 序 技术 的 快速 发 展 , DNA 测 序 ( DNA-seq ), RNA FF ( RNA-seq ) 
已 成 为 基因 组 .转录 组 分 析 的 新 的 重要 手段 ,也 为 生物 信息 学 研究 开创 了 时 新 的 局 面 。 新 一 
代 测 序 可 一 次 性 获得 数 百 万 甚至 数 十 亿 的 序列 数据 信息 ,开发 能 够 快速 鉴定 出 不 同 组 织 AN 
同 发 育 阶段 .不同 疾病 状态 下 的 转录 本 及 其 表达 差异 的 生物 信息 学 理论 和 方法 ,为 基于 新 一 
代 测 序 技术 的 复杂 疾病 研究 提供 有 力 工具 ,是 当前 生物 信息 学 研究 的 重要 任务 之 一 。 
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二 、 非 编码 区 序列 分 析 与 功能 识别 >>> 


非 编 码 DNA( 或 称 "垃圾 DNA”), 是 指 不 包含 制造 蛋白 质 的 指令 ,或 是 只 能 制造 出 无 转 
译 能 力 RNA 的 DNA 序 列 。 此 类 DNA 在 真 核 生物 的 基因 组 中 占 大 多 数 。 有 很 长 一 段 时 间 科 学 
家 们 没有 认识 到 这 些 非 编 码 的 作用 ,因此 ,这 些 重复 的 DNA 片 段 被 冠 以 垃圾 DNA 的 称号 。 随 
着 时 间 推 移 , 科 学 家 们 对 垃圾 DNA 的 认识 逐渐 深入 , 慢 慢 地 发 现 其 实 很 多 非 编码 DNA 有 着 其 
独特 的 作用 ,它们 在 基因 剪 切 等 方面 起 重要 的 作用 。 

科学 家 们 已 经 发 现 :“ 垃 圾 ”DNA 的 功能 之 一 就 是 调节 基因 的 活动 ,如 同一 道 指 令 一 样 ， 
控制 着 基因 。 一 些 控制 基因 开 和 关 的 特殊 蛋白 (转录 因子 兹 特异 识别 基因 附近 的 非 编 码 " 垃 
圾 ”DNA, 通 过 与 它们 相互 作用 参与 基因 的 抑制 与 激活 。 科 学 家 还 发 现 ,大 多 数 基因 的 开启 
和 关闭 是 由 附近 的 “垃圾 ”DNA 控 制 的 。 它 们 就 像 是 基因 的 “分 子 ” 开关 ,调节 基因 的 活动 。 
许多 “垃圾 ”DNA 序 列 的 变化 与 复杂 疾病 如 关节 炎 、 共 济 失调 症 等 的 发 生息 息 相 关 。 不 同 个 
体 对 药物 的 反应 、 对 疾病 易 感 性 的 差异 在 很 多 情况 下 也 是 由 一 些 特殊 的 “垃圾 ”DNA 调节 的 。 
甚至 一 些 科学 家 猜想 : 可 能 正 是 “垃圾 ”DNA 造 成 了 人 类 个 体 间 的 差异 。 迄 今 为 止 ,细胞 中 
的 rRNA、tRNA、snRNA、asRNA、snoRNA、miRNA、piRNA 都 非 编 码 “ 垃 圾 ” DNA 合成 。 它 们 
参与 到 基因 活化 ` 基 因 沉默 .基因 印记 、 剂 量 补偿 蛋白 合成 与 功能 调节 代谢 调控 等 众多 生 
物 学 过 程 中 。 

在 过 去 十 年 里 ,与 复杂 疾病 关联 的 微小 RNA( microRNA, miRNA ) 的 研究 取得 了 不 少 成 
果 。miRNA 是 一 类 非 编 码 的 小 RNA 分 子 , 其 长 度 约 22 个 核 车 酸 ( nucleotide ,简称 nt ), 通 过 和 
其 对 基因 3” 非 翻译 区 ( 3”untranslated region, 简称 3”UTR ) 结合 引导 RNA 诱 导 的 沉默 复合 
体 ( RNA-induced silencing complex ,简称 RISC ) 促进 其 靶 mRNA 的 降解 或 阻碍 其 靶 mRNA 的 
翻译 。 大 量 研究 表明 miRNA 可 以 通过 精细 地 调节 基因 的 转录 表达 进而 参与 细胞 的 发 育 、 分 
化 .增殖 、 凋 亡 以 及 应 激 反 应 等 生物 学 过 程 。 研 究 人 员 发 现 其 在 复杂 疾病 的 发 生发 展 过 程 中 
起 着 巨大 的 作用 ,其 功能 异常 能 够 导致 各 种 人 类 复杂 疾病 (如 癌症 、 心 血管 疾病 等 ) 的 发 生 ， 
这 使 miRNA 成 为 疾病 诊断 、 预 后 的 新 的 生物 学 标记 ( biomarker ), 并 为 进一步 揭示 复杂 疾病 
的 发 病 机 制 提供 了 新 的 方向 。 随 着 对 复杂 疾病 关联 的 非 编 码 RNA 研 究 的 深入 ,近年 来 的 研 
究 逐 渐 转 向 长 链 非 编码 RNA( long noncoding RNA, IncRNA )。lncRNA 是 一 类 转录 本 长 度 超 
过 200nt 的 RNA 分 子 ,它们 并 不 编码 蛋白 ,而 是 以 RNA 的 形式 在 多 种 层面 上 调控 基因 的 表达 
水 平 , 如 表 观 遗传 调控 、 转 录 调 控 和 调控 蛋白 活性 ,改变 RNA 的 剪 切 模式 以 及 转录 后 调控 等 。 
目前 研究 所 展现 出 的 IncRNA 繁 多 的 分 子 生物 学 功能 ,为 人 们 研究 调控 领域 提出 了 凯 新 的 视 
角 。lncRNA 通 过 与 DNA、RNA 蛋白 质 的 相互 作用 ,在 生命 活动 调控 网 络 中 扮演 着 十 分 重要 
的 角色 。 除 了 在 基因 表达 调控 方面 发 挥 着 十 分 重要 的 作用 , IneRNA 与 物种 进化 .胚胎 发 育 、 
物质 代谢 以 及 复杂 疾病 的 发 生 等 都 有 着 紧密 的 联系 。 





三 .整合 信息 组 学 》》 


当前 ,由 各 种 “omics” 组 学 技术 ,如 基因 组 学 转录 组 学 蛋白 质 组 学 和 代谢 组 学 等 技术 ， 
积累 了 大 量 的 实验 数据 。 我 们 面临 的 挑战 是 如 何 从 这 些 组 学 数据 中 ,利用 已 有 的 生物 信息 
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个 生物 信息 学 的 特定 领域 ,以 便 解 决 这 些 很 重要 的 问题 ,这 就 是 “整合 信息 组 学 ”。 

用 系统 生物 学 的 观点 ,整合 各 类 “omics” 组 学 信息 ,发 展 系统 整合 语言 ,提出 细胞 与 组 
织 乃 至 人 体 的 生理 和 病理 的 数字 化 模型 ,运用 系统 整合 语言 发 展 与 中 心 法 则 有 关 的 模型 与 
假说 ,并 在 实验 和 临床 中 加 以 验证 ,提出 药物 与 靶 点 相互 作用 及 其 网 络 作用 的 模型 与 假说 ， 
并 在 实验 和 临床 中 进行 验证 ,为 重大 疾病 的 防治 诊治 提供 理论 依据 。 随 着 基因 组 研究 的 完 
成 ,以 及 向 功能 基因 组 研究 的 转化 ,将 基因 组 转录 组 、 蛋 白质 组 以 及 比较 基因 组 学 的 数据 纤 
合集 成 ,构建 基因 调控 网 络 ,从 系统 的 角度 来 研究 生物 学 ,为 系统 生物 学 的 研究 提供 工具 ,成 
为 生物 信息 学 的 研究 重点 。 此 外 ,新 一 代 测 序 等 高 通 量 技术 的 应 用 ,产生 海量 的 基因 表达 数 
据 , 这 些 数据 中 隐 含 了 基因 表达 控制 的 信息 ,对 这 些 的 分 析 和 挖掘 ,以 及 数据 的 标准 化 已 成 
为 生物 信息 学 的 研究 热点 。 


四 、 转 化 医学 和 临床 生物 信息 学 》》 


转化 医学 ( translational medicine ), 又 被 称 作 转 化 研究 ( translational research ), 是 近年 来 
国际 医学 科学 领域 出 现 的 新 概念 ,是 基因 组 和 生物 信息 学 革命 的 时 代 产 物 ,通过 研究 可 诊断 
及 监测 人 类 疾病 的 新 参数 一 一 生物 标志 物 ,为 开发 新 药品 新 诊断 方法 、 新 治疗 方法 开辟 出 
一 条 具有 革命 性 意义 的 新 途径 。 转 化 医学 研究 的 主要 任务 是 ,将 基础 研究 所 取得 的 成 果 尽 
快 转化 为 临床 问题 的 解决 方法 ; 将 基础 研究 获得 的 知识 、 成 果 快 速 转化 为 临床 上 的 治疗 新 方 
法 ,以 及 把 临床 医疗 的 实际 情况 反馈 给 实验 室 并 以 此 来 完善 相关 课题 的 基础 研究 并 进一步 
开展 新 的 研究 的 一 种 双向 过 程 , 即 “ 从 实验 室 到 病房 ( bench to bedside 和 “从 病房 到 实验 
室 ( bedside to bench ”双向 通道 研究 ,简称 为 B2B。 

临床 生物 信息 学 的 目的 是 应 用 生物 信息 学 知识 和 技术 来 帮助 诊断 治疗 .预防 和 控制 疾 
病 ,以 及 发 展 化 学 的 、 结 构 的 和 生化 的 方法 来 应 用 于 临床 研究 。 癌 症 研 究 中 ,在 癌症 发 生 的 
不 同 阶 段 ,如 起 始 、 持 续 和 发 展 时 期 ,生物 信息 学 工具 被 用 于 检测 几 种 癌症 的 生物 标记 。 根 
据 NCI 的 解释 : 生物 标记 的 定义 是 细胞 的 生化 的 、 分 子 的 (遗传 和 表 观 遗传 ) 改 变 。 有 了 生 
物 标 记 , 一 个 正常 的 .异常 的 或 简单 的 生物 学 过 程 就 可 以 被 识别 或 监测 。 生 物 标 记 可 以 通过 
生物 媒介 ,如 组 织 、 细 胞 或 流体 来 衡量 ,也 可 用 于 评估 癌症 的 早期 诊断 、 风 险 、 癌 症 分 类 和 预 





五 .生物 信息 学 与 新 药 研究 >> 


当前 生物 信息 学 的 一 个 重要 任务 是 辅助 药物 设计 和 新 药 研 发 。 新 药 研 究 和 开发 是 一 项 
耗资 巨大 的 工程 。 过 去 ,每 一 种 新 药 从 研发 到 投入 市 场 平均 需要 10~15 年 ,耗费 数 十 亿美 元 。 
而 现在 ,生物 信息 技术 为 药物 研究 设计 提供 了 胃 新 的 研究 思路 和 手段 ,生物 信息 学 所 提供 的 
数据 和 软件 可 以 指导 对 药物 作用 靶 位 的 选 定 和 药物 分 子 的 设计 。 这 种 方法 有 快速 ,高效 的 
特点 , 它 的 研究 范围 包括 大 分 子 结构 功能 的 模拟 和 预报 、 药 物 分 子 与 大 分 子 结合 的 模拟 、 生 
物 分 子 在 指定 细胞 的 分 布 和 位 点 等 。 生 物 信息 学 已 经 在 新 药 设计 的 各 个 环节 ,如 初始 阶段 、 
筛选 及 药物 设计 ,以 及 新 药 开 发 阶段 发 挥 着 越 来 越 重要 的 作用 。 利 用 强大 的 计算 工具 ,新 药 
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开发 平均 费用 时 间 都 大 大 降低 了 。 

传统 药物 研究 中 ,可 供 筛 选 的 化 合 物 数 量 有 限 ,新 药 发 现 的 速度 很 慢 ,耗资 巨大 ,成 功率 
也 很 低 。 生 物 信息 学 在 科 选 及 药物 设计 中 的 应 用 ,给 药物 发 现 带 来 了 新 的 机 遇 。 在 “人 类 
基因 组 计划 ”完成 后 ,药物 盘 选 有 了 很 大 发 展 。 主 要 是 运用 计算 机 技术 ,以 药物 靶 标 分 子 三 
维 结构 和 蛋白质 晶体 结构 为 基础 ,对 含有 大 量化 合 物 结构 的 数据 库 进行 模拟 “筛选 ” ,迅速 高 
效 地 发 现 先导 化 合 物 及 其 新 用 途 。 这 种 药物 设计 的 方法 是 根据 靶 标 分 子 与 药物 分 子 相 结合 
的 活性 部 位 的 几何 形状 和 化 学 特征 ,设计 出 与 其 相 匹配 的 具有 新 颖 结构 的 药物 分 子 。 使 用 
这 种 方法 需 建 立 大 量化 合 物 的 三 维 结构 数据 库 ,然后 将 库 中 的 分 子 分 别 与 靶 标 分 子 结合 , 通 
过 不 断 优化 小 分 子 化 合 物 的 位 置 以 及 分 子 内 部 柔性 键 的 二 面 角 ,寻找 小 分 子 化 合 物 与 靶 标 
大 分 子 作 用 的 最 佳 构象 ,计算 其 相互 作用 及 结合 能 。 在 库 中 所 有 分 子 均 完 成 特异 结合 计算 
之 后 , 即 可 以 从 中 找 出 与 靶 标 分 子 结合 的 最 佳 分子 。 

生物 信息 学 不 仅 有 助 于 药物 靶 基 的 发 现 药物 设计 与 药物 筛选 ,而且 还 有 利于 药物 开发 
的 临床 研究 。 这 主要 表现 在 单 核 苷 酸 多 态 ( SNP )\ 药 物 基因 学 ( pharmacogenomics ) 和 药物 遗 
传 学 的 研究 及 结果 的 应 用 。 例 如 ,通过 SNP 与 药物 反应 的 相关 分 析 能 够 显示 出 在 不 同 个 体 
的 药物 作用 目标 或 药物 代谢 途径 中 存在 某 个 酶 的 差异 ,揭示 个 体 的 基因 组 多 态 与 疾病 治疗 
药物 反应 之 间 的 关系 。 这 就 让 我 们 可 以 预测 出 哪 种 药 或 疫苗 对 哪些 携带 特殊 基因 型 的 个 人 
最 有 效 , 因 此 医生 就 可 以 根据 不 同 患者 对 药物 的 不 同 反应 ,进行 个 体 化 给 药 与 个 体 化 治疗 ， 
提高 治疗 效果 ,增加 临床 试验 的 成 功率 ,促进 个 体 化 药物 的 开发 。 , 

综 上 ,复杂 疾病 的 治疗 ,逐渐 走出 实验 室 , 迅 速 进 入 转化 研究 阶段 ,其 重要 标志 ,就 是 依 
据 基因 组 学 或 蛋白 组 学 的 临床 研究 。 复 杂 疾 病 的 发 生 与 发 展 是 一 个 多 基因 参与 、 多 步 又、 复 
杂 的 生物 学 过 程 ,仅仅 依据 病理 类 型 ,临床 分 期 以 及 患者 年 龄 .行为 状态 等 临床 特征 选择 治 
疗 方法 以 远 远 达 不 到 个 体 化 数字 化 治疗 的 要 求 。 通 过 生物 信息 学 的 方法 研究 复杂 疾病 的 组 
学 谱 , 全 面 详尽 地 了 解 肿瘤 的 生物 学 特性 来 指导 临床 治疗 ,是 未 来 医疗 的 必由之路 。 

考 庸 置疑 ,以 DNA 和 和 蛋白质 序列 为 源头 的 生物 信息 学 ,已 经 显著 改变 了 传统 实验 数据 的 
处 理 手段 ,变革 了 基础 生命 科学 的 运作 方式 ,推进 了 应 用 生物 技术 及 相关 学 科 的 发 展 速度 。 
随 着 生物 信息 学 研究 的 不 断 深入 和 扩展 ,势必 带 来 整个 生物 领域 的 重大 革命 ,尤其 对 人 类 基 
因 疾 病 的 诊断 和 治疗 以 及 药物 开发 必 将 产生 深远 影响 。 

( 李 &) 








序列 比 对 与 序列 特征 分 析 


SEQUENCE ALIGNMENT AND ANALYSIS 
OF SEQUENCE CHARACTERISTICS 


随 着 近年 来 生物 实验 技术 和 方法 的 快速 发 展 ,通过 实验 获取 的 RNA、DNA 和 蛋白 
质 序列 数据 以 前 所 未 有 的 速度 增长 。 世 界 各 国 的 生物 学 家 和 计算 机 学 家 合作 通过 对 
这 些 序列 数据 的 分 类 、 收 集 和 整理 构建 了 基因 组 数据 库 、 核 酸 和 有 蛋白质 一 级 结构 序列 
数据 库 以 及 在 此 基础 上 构建 特殊 类 型 的 核酸 和 有 蛋白质 序列 数据 库 。 对 各 种 生物 序列 
进行 分 析 是 生物 信息 学 最 主要 的 研究 内 容 之 一 , 它 可 以 分 为 两 个 主要 部 分 : 一 是 序列 
之 间 的 比较 分 析 。 二 是 序列 组 成 和 特征 分 析 。 序 列 比较 的 基本 操作 是 比 对 ,将 未 知 序 
列 同 已 知 序列 进行 相似 性 比较 是 一 种 强 有 力 的 研究 手段 ,从 序列 的 片段 测定 拼接、 基 
因 的 表达 分 析 , 到 RNA 和 蛋白 质 的 结构 功能 预测 ,物种 亲缘 树 的 构建 都 需要 进行 生物 
分 子 序列 的 相似 性 比较 。 生 物 信 息 学 中 的 序列 比 对 算法 的 研究 具有 非常 重要 的 理论 
意义 和 实践 意义 。 而 对 DNA 序 列 和 有 蛋白 质 序列 进行 序列 特征 分 析 , 能 够 从 分 子 层面 上 
解读 基因 的 结构 特点 ,了 解 与 基因 表达 调控 相关 的 信息 ,明确 DNA 序 列 与 蛋白 质 序列 
之 间 的 编码 关系 ,为 进一步 揭示 基因 的 结构 和 功能 ,研究 蛋白 质 结构 和 功能 之 间 的 关 
系 提 供 理论 依据 。 
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SE—TD 
获取 DNA、RNA 和 蛋白质 序 列 


Section 1 DNA, RNA and Protein Sequence Information Resources 
一 .DNA 序 列 的 获取 >> 


(—) 国际 核酸 序列 数据 库 协 会 


1988 年 由 国际 上 三 大 主要 的 公共 核酸 序列 数据 库 共同 建立 了 国际 核酸 序列 数据 库 协会 
(international nucleotide sequence database collaboration, INSDC, http: //www.insdc.org/ ) (图 1-1 ), 
这 三 个 数据 库 分 别 是 位 于 美国 马里 兰州 的 贝 塞 斯 达 的 美国 国家 生物 技术 信息 中 心 ( NCBI) 
的 GenBank, 位 于 英国 的 欧洲 分 子 生物 学 研究 中 心 (EMBL ) 的 ENA 和 日 本 的 DNA 数 据 库 
(DDBJ), 三 大 核酸 数据 库 之 间 各 自 搜 集 世 界 各 国有 关 实 验 室 和 测序 机 构 所 发 布 的 序列 数据 ， 
每 天 将 新 测定 或 更 新 的 数据 进行 交换 ,实现 了 全 球 范 围 内 核酸 序列 的 同步 更 新 和 交换 共享 。 


C international Nucleotide Sequence Database Collaboration 


ABOUT INSDC POLICY 


p" 








International Nucleotide Sequence Database Collaboration 


s J * The international Nucleotide Sequence Databases (INSD) have been developed and 
) DDB maintained collaboratively between DDBJ, ENA, and GenBank for over 18 years 


* The INSDC advisory board, the International Advisory Committee , is made up of 





members of each of the databases’ advisory bodies. At their most recent meeting, 


members of this committee unanimously endorsed and reaffirmed the existing data- 
ENA ^*^^. sharing policy of the three databases that make up the INSDC, which is stated below 
Mee iet tt * Individuals submitting data to the international sequence databases should be aware of 
INSDC policy 


le How to submit data 
5 NCBI 





* For full details of how to submit data to the databases, please select a collaborating 
partner 


* DDBJ, ENA, GenBank 
* The INSDC Feature Table Definition Document is available here 








图 1-1 INSDC 的 主页 
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1. GenBank GenBank ( http: //www.ncbi.nlm.nih.gov/genbank/ ) 是 由 隶属 于 美国 国立 卫生 院 
( national institute of health, NIH ) 的 美国 国立 生物 技术 信息 中 心 ( national center for biotechnology 
information, NCBI ) 建立 的 国际 权威 核酸 序列 数据 库 。NCBI 构 建 的 GenBank 数 据 库 序列 来 
自 于 发 现 者 提交 的 序列 .批量 提交 的 表达 序列 标签 ( expressed sequence tag, EST )、 基 因 组 测 
序 序列 ( genome survey sequences, GSS ) 和 其 他 测序 中 心 提 交 的 高 通 量 数据 以 及 美国 专利 商 
标 局 提供 的 已 发 表 的 专利 序列 数据 。 截 止 到 2010 年 , GenBank 共 收 录 了 超过 38 万 个 物种 的 
198 156 212 条 序列 ,总 长 度 超 过 了 3000 多 亿 个 碱 基 。 图 1-2 总 结 了 从 1982~2008 年 GenBank 中 
DNA 序 列 和 碱 基数 目的 变化 情况 。 除 了 序列 信息 以 外 , GenBank 还 收录 了 相应 的 参考 文献 
记录 和 生物 学 注释 。 


s( millions ) 


Sequence 


Base Pairs of DNA( billions ) 


ux Base Pairs 
=t Sequences 





1982 1986 1990 1994 1998 2002 2006 


图 1-2 ”GenBank 中 DNA 序 列 和 碱 基数 量 的 变化 情况 
来 源 于 : http: /Aww.ncbi.nim.nih.gov/genbank/genbankstats.htm1 


( 1) GenBank 数 据 库 的 组 织 结构 

1 ) CenBank 数 据 库 中 的 序列 文件 和 序列 条 目 

完整 的 GenBank 数 据 库 包 括 序列 文件 ,索引 文件 以 及 其 他 有 关 文 件 。 索 引文 件 是 根据 
数据 库 中 作者 参考 文献 等 子 段 建立 的 ,用 于 数据 库 查询 。GenBank 中 最 常用 的 是 序列 文件 。 
序列 文件 的 基本 单位 是 序列 条 目 ,包括 核 苷 酸 碱 基 排 列 顺序 和 注释 两 部 分 。 序 列 文件 由 单 
个 序列 条 目 组 成 ,每 个 条 目 是 一 个 纯 文本 文件 ,序列 条 目 由 字段 组 成 ,每 个 字段 由 关键 字 起 
始 , 后 面 为 该 字段 的 具体 说 明 。 有 些 字段 又 分 若干 子 字段 ,以 次 关键 字 或 特性 表 说 明 符 开始 。 
每 个 序列 条 目 以 双 斜 杠 “//” 作 结束 标记 。 序 列 条 目的 格式 非常 重要 ,关键 字 从 第 一 列 开始 ， 
次 关键 字 从 第 三 列 开 始 ,特性 表 说 明 符 从 第 五 列 开始 。 每 个 字段 可 以 占 一 行 ,也 可 以 占 若 
干 行 。 若 一 行 中 写 不 下 时 ,继续 行 以 空格 开始 。 每 条 GenBank 序 列 条 目的 关键 字 包 括 代码 
( LOCUS ), 说 明 ( DEFINITION ), 编号 (ACCESSION ), 标 识 符 (NID ), 关 键 词 ( KEYWORDS ), 
数据 来 源 ( SOURCE ), 文 献 ( REFERENCE ), 特 性 表 ( FEATURES ), 碱 基 组 成 (BASE COUNT ) 
和 排列 顺序 (ORIGIN )。 
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代码 行 是 该 序列 条 目的 标记 ,或 者 说 标识 符 ,蕴涵 这 个 序列 的 功能 。 其 中 ,检索 号 是 唯 
一 的 \ 不 可 重复 的 。 该 字段 还 包括 其 他 相关 内 容 如 序列 长 度 、 类 型 . 众 数 以 及 录入 日 期 等 ; 说 
明 字 段 是 关于 这 一 序列 的 简单 描述 ,用 以 总 结 记 录 的 生物 学 意义 ; 编号 字段 具有 唯一 性 和 永 
入 性 ,在 文献 中 引用 这 个 序列 时 ,应 该 以 此 编号 为 准 ; 核酸 标识 符 提供 了 序列 信息 的 当前 版 
本 ; 关键 词 字 段 由 该 序列 的 提交 者 提供 ,包括 该 序列 的 基因 产物 以 及 其 他 相关 信息 ; 数据 来 
源 字段 说 明 该 序列 是 从 何 种 生物 体 、 何 种 组 织 得 到 的 ; 次 关键 字 种 属 ( ORGANISM ) 指出 该 
生物 体 的 分 类 学 地 位 ,如 人 、 真 核 生 物 等 ; 文献 字段 说 明 该 序列 中 的 相关 文献 .包括 作者 、 题 
目 及 期 刊 名 称 等 ,以 次 关键 词 列 出 。 该 字段 中 还 列 出 医学 文献 摘要 数据 库 MEDLINE 的 代码 。 
该 代码 实际 上 是 个 网 络 链 接 指针 ,点 击 它 可 以 直接 调用 上 述 文献 摘要 。 一 个 序列 可 以 有 多 
篇 文献 ,以 不 同 序号 表示 ,并 给 出 该 序列 中 的 哪 一 部 分 与 文献 有 关 ; 特性 表 直 接 给 出 了 记录 
的 生物 学 背景 知识 ,记录 中 的 一 整套 注释 有 助 于 快速 抽取 相关 生物 学 信息 。 特 性 表 详 细 地 
描述 了 合法 的 特性 ( 允许 使 用 的 注释 ), 以 及 这 些 特性 的 允许 限制 词 ,如 果 这 些 注释 仅仅 是 推 
测 或 是 计算 得 到 的 ,其 可 信和 度 降低 。 同 时 特性 表 具 有 特定 的 格式 ,用 来 详细 描述 序列 特性 。 
特性 表 中 带 有 “/db-xref ”标志 的 字符 可 以 连接 到 其 他 数据 库 ,此 外 还 对 翻译 所 得 的 信号 肽 
以 及 最 终 蛋 白质 产物 进行 简要 说 明 。 在 特性 表 中 ,来 源 特性 是 唯一 一 个 必须 在 所 有 GenBank 
记录 中 出 现 的 特性 ,大 多 数 情况 下 ,一 个 记录 只 能 有 一 个 来 源 特性 ,并 带 有 “/organism” 限 
定 词 ,在 CenBank 注 释 的 特性 表 中 出 现 的 关键 字 及 其 意义 见 表 1-1 ; 碱 基 组 成 是 碱 基 含量 字 
段 ,计算 出 不 同 碱 基 在 整个 序列 中 出 现 的 次 数 ,给 出 序列 中 的 碱 基 组 成 ; GenBank 数 据 库 记 
录 以 ORIGIN 行为 序列 的 引导 行 ,指出 了 序列 第 一 个 碱 基 在 基因 组 中 的 可 能 位 置 ,最 后 列 出 
全 部 的 碱 基 序列 ,以 双 斜 杠 “//” 结 束 。 


表 1_1 特性 表 中 的 关键 字 及 其 意义 
意义 o 


















3' UTR 3' 非 翻 译 区 modified_base 修饰 过 的 碱 基 

5' UTR 5' 非 翻 译 区 mRNA 信使 RNA 

-10_signal -10 信和 号 mutation 突变 

-35. signal -35 信号 rRNA | 核糖 体 RNA 

CAAT_signal CAAT 信 号 tRNA 转运 RNA 

CDS 编码 序列 , 含 终止 密码 子 polyA_signal 多 聚 A 信 号 

enhancer 增强 子 polyA_site 多 聚 A 位 点 

exon 外 显 子 prim transcript 初始 转录 码 

GC. signal GC 信号 promotor 启动 子 

gene 已 命名 的 基因 序列 protein_bind 蛋白 质 结 合 位 点 

intron 内 含 子 rep_origin 复制 起 点 

LTR 长 终端 重复 序列 repeat_region 重复 区 

mat_peptide 翻译 后 被 修饰 的 序列 ,不 含 | repeat unit 重复 单元 
终止 密码 子 

mis_binding 错 结合 点 satellite 卫星 片段 

misc feature 其 他 性 状 sig_peptide 信和 号 肽 

misc_RNA 其 他 RNA i TATA_signal TATA 信号 

mis signal 其 他 信和 号 terminator 终端 子 
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2 ) GenBank 数 据 库 中 的 子 库 


GenBank 数 据 库 中 的 序列 记录 可 以 划分 为 11 个 子 库 ( BCT, INV, MAM, PHG, PLN, PRI, 
ROD, SYN, UNA, VRL, VRT ) 和 7 个 高 通 量子 库 ( ENV, EST, GSS, HTC, HTG, STS, TSA )。 
子 库 的 划分 可 以 把 数据 库 查询 限定 在 某 一 特定 部 分 加 快 了 查询 速度 。 同 时 ,基因 组 计划 快 
速 测 序 得 到 的 大 量 序列 尚未 加 以 注释 ,将 它们 单独 分 类 ,有 利于 数据 库 查 询 和 搜索 。 表 1-2 
中 显示 了 这 些 子 库 中 碱 基 的 数目 和 增长 趋势 。 同 时 , GenBank 数 据 库 中 全 基因 组 测序 数据 
也 在 不 断 的 增加 ,现在 已 经 有 超过 1200 种 细菌 和 古 细菌 及 460 多 种 着 椎 动物 的 全 基因 组 拼接 


数据 。 





TSA 
ENV 
PAT 
BCT 
VRL 
PHG 
MAM 
INV 
WGS 
GSS 
PLN 
SYN 
VRT 
EST 
HTC 
PRI 
ROD 
HTG 
UNA 
STS 
Total 


子 库 名 称 


转录 组 鸟 枪 法 序列 
环境 样本 序列 
专利 序列 

细菌 序列 

病毒 序列 

WV a AS FF P] 

其 他 哺乳 类 序列 
AETHEEZIMIFE PU 
全 基因 组 鸟 枪 序列 
基因 组 测序 序列 
植物 序列 

人 工 合成 序列 

其 他 疹 椎 动物 序列 
EST 序 列 

高 通 量 cDNA 序列 
灵 长 类 序列 

Wi Pai IS FF J] 

高 通 量 基因 组 序列 
未 经 注释 的 序列 
序列 标签 位 点 
GenBank 中 的 序列 


版 本 173( 8/2009) ”版 本 179( 8/2010) _ 


39 829 979 

1 091 072 890 
5 592 927 651 
4 107 328 206 
779 481 462 
36 100 172 
576 977 646 

1 734 996 371 
148 165 117 763 
16 738 219 857 
3 695 552 256 
131 361 806 

2 366 300 257 
34 522 977 161 
636 472 189 

5 751 413 009 
4 206 718 960 
23 895 733 886 
119 348 

629 573 650 
254 698 274 519 


X1-2 GenBank 子 库 中 碱 基 的 数目 和 增长 趋势 


398 676 845 

1 723 286 428 
8 519 294 473 
5 333 010 385 
970 125 245 
43 456 808 
679 274 390 

2 036 240 836 
169 253 846 128 
18 442 479 673 
4 038 424 961 
142 548 355 

2 533 789 261 
36 803 930 321 
659 355 057 

5 943 029 356 
4 298 354 944 
24 276 862 305 
120 289 

634 263 196 
286 730 369 256 


增长 速率 ( % ) 
900.9 
57.9 
52.3 
29.8 
24.5 
20.4 
17.7 
17.4 
14.2 
10.2 
9.3 
8.5 
Vl 
6.6 
3.6 
3.3 
22 
1.6 
0.8 
0.7 
12.6 


ik: 来 源 于 Benson DA, Karsch-Mizrachi I, Lipman DJ, et al. GenBank. Nucleic Acids Res,2001 ; 39 : 32-37. 


转录 组 鸟 枪法 组 装 序列 ( TSA ) 子 库 是 伴随 着 新 一 代 测 序 技术 出 现 的 ,如 "Roche-454 
Life Science" , “Illumina Solexa” 和 “Applied Biosystems SOLID” ,新 加 入 到 CenBank 数 据 库 中 
的 一 个 新 的 子 库 。 该 子 库 中 的 序列 主要 由 来 自 于 NCBI 的 踪迹 档案 ( trace archive, TA ) 序列 
读 取 档案 ( sequence read archive, SRA ) 和 EST 数 据 子 库 的 序列 组 装 而 成 。 
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环境 样本 序列 ( ENV ) 数 据 子 库 中 的 序列 来 自 于 非 WGS 测 序 的 序列 ,这 些 序列 的 物种 来 
源 是 未 知 的 。 许 多 的 环境 样本 序列 来 自 于 不 同 动物 组 织 ( 如 内 脏 、 皮 肤 ) 或 者 淡水 沉积 
温泉 和 矿井 污水 区 等 特殊 环境 中 的 微生物 。 环 境 样品 序列 记录 中 在 关键 字 字段 标明 “ENV” 
并 且 在 来 源 特征 处 标明 “/environmental_sample”。 

表达 序列 标签 ( EST ) 子 库 一 直 是 研究 基因 表达 及 基因 注释 的 重要 的 资源 ,同时 也 是 非 
WGS 子 库 中 最 大 的 一 个 。 它 收录 了 一 系列 物种 的 “测序 一 次 ”的 cDNA 序 列 或 者 是 表达 序列 
标签 。 截 止 到 2011 年 1 月 , EST 数 据 库 ( 100111 版 本 ) 共 收录 了 7.09 千 万 条 记录 , 表 1-3 列 出 了 收 
录 最 多 的 前 10 个 物种 。EST 数 据 库 中 的 数据 可 以 通过 NCBI 的 FTP 站 点 免费 下 载 ftp.ncbi.nih.gov/ 
repository/dbEST。EST 数 据 库 中 的 数据 经 过 进一步 blast 程 序 的 同 源 比 对 生成 了 UniGene 数 据 
库 ( www.ncbi.nlm.nih.gov/unigene )。UniGene 数 据 库 中 已 经 存储 了 120 个 物种 的 430 万 个 簇 条 目 。 


表 1-3 EST 数据 库 中 记录 数量 居 前 的 10 个 物种 (dbEST 第 100111 版 本 ,2011 年 1 月 ) 


物种 通用 名 ， 0 EST 记 录 数 
Homo sapiens XK 8 315 272 
Mus musculus + domesticus 小 鼠 4 853 562 
Zea mays 玉米 2019 114 
Sus scrofa 野猪 1 624 046 
Bos taurus 牛 1 559 494 
Arabidopsis thaliana 拟 南 芥 1 529 700 
Danio rerio 斑马 鱼 1 488 275 
Glycine max 大 豆 1 461 624 
Xenopus ( Silurana ) tropicalis divi TS 1271375 
Oryza sativa 水 稻 1 252 989 


全 基因 组 乌 枪 序列 ( whole genome shotgun, WGS ) Za x FEE WGS38 2 PEE Pe ,每 
条 序列 都 有 一 个 访问 号 ,该 访问 号 包含 一 个 4 字母 的 计划 ID 号 ,后 面 是 两 个 数字 的 版 本 号 和 
六 个 数字 的 重 和 至 拼接 的 ID 号 。 如 果 一 个 WGS 计 划 的 访问 号 是 “XXXX00000000” ,那么 这 个 
计划 的 第 一 个 组 装 版 本 是 XXXX01000000 ,第 一 个 重 释 群 的 版 本 是 XXXX01000001。 截 止 到 
2010 年 10 月 ,全 基因 组 鸟 枪 测序 计划 已 经 向 GenBank 数 据 库 提交 了 6.4 千 万 条 拼接 序列 ,构建 
了 800 万 个 大 规模 的 染色 体 骨 架 的 组 装 体 。 

高 通 量 基因 组 ( HTG ) 和 高 通 量 cDNA( HTC ) 序 列子 库 : HTG 子 库 ( www.nebi.nlm.nih.gov/ 
HTGS ) 是 GenBank 数 据 库 中 一 个 存储 尚未 完成 的 大 规模 基因 组 记录 的 数据 子 库 。 这 些 记 
录 可 以 根据 数据 质量 分 为 0~3 个 阶段 ,3 阶段 代表 完成 状态 。 一 旦 达到 3 状态 , HTG 中 的 记录 
就 会 被 转移 到 合适 的 GenBank 数 据 库 的 其 他 子 库 中 。GenBank 中 的 HTC 子 库存 储 高 通 量 的 
cDNA 序 列 , 这 些 序列 是 一 些 初级 序列 ,可 能 包含 3” 和 5” 端 的 非 翻 译 区 、 部 分 编码 区 和 内 含 
子 。 完 成 后 的 高 质量 的 HTC 序 列 也 将 会 转移 到 合适 的 GenBank 数 据 库 的 其 他 子 库 中 。 

3 ) 基 于 物种 的 分 类 

GenBank 数 据 库 中 的 序列 还 可 以 根据 物种 名 进行 检索 。 表 1-4 总 结 了 在 GenBank 数 据 库 
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中 20 种 非 鸟 枪法 测序 (non-WGS ) 最 多 的 物种 和 碱 基 数目 。 
表 1-4 ” GenBank 数据 库 中 碱 基数 量 居 前 的 20 个 物种 








物种 ，。 BHA 人 

Homo sapiens 人 14 792 487 417 
Mus musculus 小 鼠 8 859 010 528 
Rattus norvegicus KE 6 443 768 086 
Bos taurus 牛 5 361 712 195 
Zea mays 玉米 5 037 629 354 
Sus scrofa 野猪 4 783 381 701 
Danio rerio 斑马 鱼 3 137 945 523 
Strongylocentrotus purpuratus 紫 海 胆 1 352 920 226 
Oryza sativa Japonica Group 水 稻 1 197 245 122 
Nicotiana tabacum 烟草 1 187 388 273 
Xenopus ( Silurana ) tropicalis Pris MWS 1 147 132 278 
Drosophila melanogaster Se 1 047 707 620 
Pan troglodytes 黑猩猩 1 001 926 471 
Arabidopsis thaliana 拟 南 芥 1 001 073 627 
Canis lupus familiaris BR 943 043 649 
Vitis vinifera 葡萄 913 911 649 
Gallus gallus 38 891 463 513 
Glycine max Xu 886 103 518 
Macaca mulatta Td 821 393 285 
Ciona intestinalis Ti 748 350 657 


jE: 来 源 于 Benson DA, Karsch-Mizrachi I, Lipman DJ, et al. GenBank. Nucleic Acids Res,2011;39 : 32-37. 


(2 ) 在 GenBank 数 据 中 获取 核酸 序列 的 方法 

1 ) Entrez 检 索 系统 

Entrez ( http: //www.ncbi.nlm.nih.gov/sites ) 是 NCBI 的 数据 库 检 索 查 询 系 统 。 利 用 Entrez 
系统 用 户 可 以 方便 地 检索 GenBank 数 据 库 中 的 核酸 序列 。GenBank 数 据 库 中 的 EST 子 库 和 
GSS 子 库 就 存储 在 Entrez 的 EST 和 GSS 数 据 库 中 , GenBank 数 据 库 中 其 他 的 记录 存储 在 Entrez 
的 Nucleotide 数 据 库 中 。 用 户 可 以 利用 Entrez 界 面 上 提供 的 限制 条 件 ( Limits ) 385] (Index 入 
检索 历史 ( History ) 和 剪贴 板 ( Clipboard ) 等 功能 来 实现 复杂 的 检索 查询 工作 。 对 于 检索 获 
得 的 记录 ,用 户 可 以 选择 需要 显示 的 数据 ,保存 查询 结果 ,甚至 以 图 形 方式 观看 检索 获得 
的 序列 。 更 详细 的 Entrez 使 用 说 明 可 以 在 该 主页 上 获得 。 用 户 利用 Entrez 系 统 还 可 以 检索 
GenBank 和 其 他 资源 的 蛋白 质 序列 基因组 图 谱 、 基 因 表达 数据 、NCBI 分 类 数据 和 蛋白质 结 
构 数据 ,以 及 PubMed 和 PubMed Central 中 的 学 术 文 献 。 
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2 ) 与 测序 计划 相关 的 序列 记录 

由 NCBI 建 立 的 基因 组 计划 数据 库 允 许 测 序 中 心 登记 测序 计划 ,并 且 得 到 一 个 特有 的 计 
划 标 识 符 ,用 以 保证 测序 计划 和 该 计划 产生 的 数据 之 间 建 立 可 靠 的 联系 。 该 数据 库 后 来 被 
重新 命名 为 BioProjects (http: //www.ncbi.nlm.nih.gov/bioproject )。BioProjects 数 据 库 通过 一 种 
有 组 织 的 结构 允许 用 户 访问 各 种 研究 计划 及 其 产生 的 数据 。 

3 ) BLAST 序 列 相 似 性 搜索 

序列 相似 性 搜索 是 GenBank 数 据 库 中 数据 注释 的 最 基础 和 使 用 最 多 的 方法 。NCBI 提 供 

一 系列 的 BLAST 程 序 用 于 检测 查询 序列 和 数据 库 中 序列 的 相似 性 。 用 户 可 以 在 NCBI 网 站 
We 与 NCBI 的 数据 库 中 的 序列 进行 相似 性 比 对 ,也 可 以 通过 NCBI 的 FTP 下 载 本 
地 BLAST 软 件 后 ,在 本 地 做 BLAST 相 似 性 比 对 。 

4 ) 通 过 GenBank 的 FTP 站 点 

NCBI 以 传统 的 文本 文件 格式 发 布 GenBank 的 数据 ,并 且 以 ASN.1 格 式 进行 内 部 维护 。 每 
两 个 月 的 GenBank 以 及 EMBL 和 DDBJ 的 更 新 的 序列 数据 都 可 以 从 NCBI 的 匿名 FIP 服务器 上 
下 载 (ftp.ncbi.nih.gov/genbank )。 同 时 还 可 以 从 NCBI 的 FTP 服 务 器 上 人 免费 下 载 完整 的 库 。 在 
GenBank 发 布 的 第 179 版 本 中 有 1443 个 文件 ,需要 大 概 484GB 的 存储 空间 。 

2. ENA 数 据 库 

European nucleotide archive( ENA ) 是 欧洲 的 主要 的 核酸 序列 数据 库 , 由 欧洲 分 子 生物 学 
研究 中 心 (European molecular biology laboratory, EMBL ) 的 欧洲 生物 信息 学 研究 所 ( European 
bioinformatics institute, EBI ) 建立 和 维护 (图 1-3 )。ENA 数 据 库 整 合 了 原始 的 序列 数据 、 组 装 信息 
和 功能 注释 。ENA 数 据 库 主要 包括 三 个 主要 的 数据 库 : 序列 读 取 数 据 库 ( sequence read archive, 
SRA ), 测 序数 据 库 (trace archive ) 和 EMBI 数 据 库 (EMBL-Bank )。ENA 的 目标 是 通过 提供 数据 提 
交 、 存 储 \ 搜 索 和 下 载 服务 支持 和 促进 核酸 测序 的 发 展 。 截 止 到 2010 年 10 月 ENA 数 据 库 一 共存 
储 了 5000 亿 个 原始 和 组 装 的 序列 ,包括 50 兆 的 碱 基 。 在 最 近 三 年 ,在 SRA 中 存储 的 新 一 代 测 序 
技术 产生 的 序列 已 经 成 为 ENA 中 最 大 和 增长 最 快 的 数据 ,已 经 占 到 了 ENA 数 据 大 约 95%。 同 时 ， 
在 ENA 中 也 存储 了 超过 1400 种 单 细胞 和 多 细胞 生物 和 3000 多 种 病毒 和 鸣 菌 体 的 全 基因 组 序列 。 
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图 1-3 ENA 数 据 库 的 主页 
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ENA 的 数据 可 以 通过 网 络 浏览 器 以 XML、HTML、FASTA 和 文本 格式 进行 访问 。 用 户 还 
可 以 利用 ENA 提 供 的 新 服务 ( http: //www.ebi.ac.uk/ena/search ) 进行 序列 相似 性 搜索 。 当 然 用 
户 还 可 以 通过 EMBI 数 据 库 提供 的 FTP 站 点 (ftp: //ftp.edi.ac.uk/pub/databases/embl/ ) 和 SRA 和 
测序 数据 库 提 供 的 FTP 站 点 ( ftp: //ftp.sra.ebi.ac.uk/ ) 进行 批量 下 载 。 

3. DDBJ 数 据 库 

日 本 DNA 数 据 库 DDBJ( DNA data bank of Japan, http: //www.ddbj.nig.ac.jp/ ) 于 1984 年 建 
立 ,由 信息 生物 学 中 心 和 国家 遗传 研究 所 的 日 本 DNA 数 据 库 ( CIB-DDBJ ) 维护 ,是 世界 三 大 
DNA 数据 库 之 一 ,也 是 亚洲 唯一 的 核酸 序列 数据 库 。 它 首先 反映 日 本 产生 的 DNA 数 据 , 同 
时 每 天 将 收集 的 数据 与 EMBL-Bank 和 CenBank 数 据 库 进行 交换 。DDBJ 的 主要 目标 是 提高 国 
际 核酸 序列 数据 库 ( international nucleotide sequence database, INSD ) 的 质量 。90% 的 日 本 研 
究 者 的 数据 是 通过 DDBJ 提 交 的 (图 1-4 )。 
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图 1-4 DDBJ 数 据 库 的 主页 


(=) 编码 和 非 编 码 的 DNA 序 列 数据 库 

1. RefSeq NCBI 的 参考 序列 ( reference sequence, RefSeq ) 数据 库 ( http: //www.ncbi.nlm. 
nih.gov/RefSeq/ ) 为 多 种 生物 提供 校正 的 序列 数据 信息 及 相关 资料 ,用 于 医学 、 基 因 功 能 和 基 
因 功 能 比较 研究 。RefSeq 数 据 库 是 一 个 综合 的 、 非 元 余 的 和 有 具有 和 较 好 注释 的 序列 集合 ,包括 
基因 组 序列 、RNA 序 列 和 蛋白质 序列 。RefSeq 数 据 库 区 别 于 其 他 数据 库 的 主要 特征 包括 非 
JUAR TE , .明确 的 核酸 和 和 蛋白 质 序 列 的 对 应 关系 、 实 时 更 新 和 数据 的 证 实 、 格 式 的 一 致 和 截然 
不 同 的 Accession 号 等 。 截 止 到 2011 年 7 月 ,在 RefSeq 数 据 库 发 布 的 49 版 中 共存 储 了 2.4 百 万 个 
基因 组 记录 .2.6 百 万 个 RNA 记 录 和 13.1 百 万 个 蛋白 质 记 录 。 

2. PseudoGene 假 基因 数据 库 ( PseudoGene, http: //www.pseudogene.org/ ) 由 耶鲁 大 学 建 
立 的 一 个 存储 真 核 生 物 和 原核 生物 基因 组 中 的 假 基因 信息 的 综合 数据 库 。PseudoGene 数 据 
库 提供 了 友好 的 用 户 界 面 ,根据 不 同 的 假 基 因 特 征 将 数据 分 为 不 同 的 部 分 ,同时 允许 用 户 使 
用 感 兴趣 的 关键 字 进 行 查找 和 下 载 服务 。 
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3. STRBase 短 串 联 E DNA% 据 库 ( short tandem repeat DNA internet database, 
STRBase ) 由 位 于 美国 马里 兰州 的 国家 标准 与 技术 局 的 John M.Butler 等 人 于 1997 年 建立 (http: // 
www.cstl.nist.gov/div831/strbase/ )。STRBase 主 要 包括 四 个 部 分 : 一 般 数 据 、 法 医 STR 信 息 、 其 
他 的 DNA 标 记 信 息 和 非 人 类 DNA 资 源 以 及 其 他 资源 和 工具 。 一 般 数 据 部 分 是 STRBase 的 
核心 ,包括 一 些 广 泛 使 用 的 STR 标记 的 数据 。 这 些 数据 以 “STR 资 料 概览 ”的 形式 被 展示 。 
这 些 资料 概览 由 四 个 部 分 组 成 : 一 般 信息 、PCR 引物 、PCR 产物 大 小 和 其 他 数据 。 一 般 信 
息 区 段 包括 STR 位 点 的 其 他 名 字 , 它 在 染色 体 上 的 位 置 ,核心 STR 重复 单位 的 序列 , 它 的 
GenBank 序列 号 和 参考 序列 中 重复 单位 的 个 数 。 

4. TRDB 串联 重复 数据 库 ( tandem repeats database, TRDB ) 由 波士顿 大 学 生物 计算 和 
信息 中 心 的 Gary Benson 于 2006 年 建立 (http: //tandem.bu.edu/cgi-bin/trdb/trdb.exe )。TRDB 数 
据 库 收 录 了 基因 组 DNA 序 列 中 的 串联 重复 序列 和 各 种 分 析 工 具 。TRDB 数 据 库 提供 了 一 系 
列 服务 包括 : 串联 重复 序列 查找 工具 的 下 载 ,查询 和 过 滤 服 务 ,基于 序列 相似 性 的 重复 序列 
聚 类 、 多 态 的 预测 , PCR 引 物 的 选择 和 数据 的 下 载 。 


二 、RNA 序 列 的 获取 >>> 


l. ncRNAdb 非 编码 RNA 数 据 库 (noncoding RNA database ) 提供 了 非 编 码 RNA 的 序 
列 和 功能 信息 。 虽 然 这 些 RNA 不 编码 蛋白 质 ,但 是 这 些 非 编码 RNA 仍 然 具 有 重要 的 功能 包 
括 染色 质 结构 重建 .基因 表达 的 转录 和 翻译 调控 和 亚 细 胞 位 置 的 调控 等 。 目 前 该 数据 库 收 
录 了 来 自 99 种 真 核 生物 .细菌 和 古 细菌 的 3 万 多 条 序列 。neRNAdb 的 主要 的 序列 资源 来 自 于 
GenBank。 还 有 一 部 分 鼠 和 人 类 的 ncRNA 注 释 信息 来 自 于 FANTOM3 数 据 库 ( http: //fantom. 
gsc.riken.jp/A4/ ) 和 H-IJev 人 类 基因 综合 注释 数据 库 ( http: //jbirc.jbic.or.jp/hinv/ahg-db/index. 
jsp )。 细 菌 的 小 细胞 质 RNA 序 列 和 注释 信息 来 自 于 Rfam 数 据 库 (http: //rfam.sanger.ac.uk/ )。 
ncRNAdb 中 的 数据 可 以 通过 以 下 几 种 方法 进行 检索 : Search ( http: //ncrnadb.trna.ibch.poznan. 
pl/search.html ), BLAST (http: //ncrnadb.trna.ibch.poznan.pl/blast.html ), Browse ( http: //nernadb. 
trna.ibch.poznan.pl/Browser.html ), Download ( http: //ncrnadb.trna.ibch.poznan.pl/download.html ). 

2. Rfam ”Rfam 是 通过 多 序列 比 对 、 二 级 结构 和 方差 模型 方法 建立 的 非 编码 RNA 家 族 数 
据 库 。Rfam 可 以 通过 位 于 英国 的 http: //www.sanger.ac.uk/Software/Rfam/ 或 者 位 于 美国 的 http: // 
rfam.wustl.edu/ 站 点 进行 访问 。Rfam 数 据 库 可 以 分 为 三 个 主要 的 功能 类 : 非 编码 RNA 基 因 、 
结构 化 的 顺 式 调 控 元 件 和 自主 剪 切 的 RNA。 这 些 具有 功能 的 RNA 二 级 结构 往往 比 RNA 序 
列 更 保守 。Rfam 发 布 的 第 1 版 仅 包含 25 个 家 族 的 5 万 个 非 编码 RNA 基 因 。 截 止 到 2011 年 6 月 
Rfam 发 布 了 第 十 个 版 本 包含 1973 个 家 族 。 

3. GtRDB 基因 组 :RNA 数据 库 ( genomic tRNA database, GtRDB ) (http: //gtrnadb.ucsc. 
edu ) 存储 了 已 完成 和 接近 完成 的 基因 组 中 由 tRNAscan-SE 程 序 预测 的 tRNA 基因 。 截 止 到 
2011 年 4 月 , GtRDB 数 据 库 包含 了 来 自 46 种 真 核 生物 、86 种 古 细菌 和 629 种 细菌 的 :RNA 基因 。 

4. miRBase miRBase( http: //www.mirbase.org/ ) 是 一 个 主要 的 存储 所 有 在 科学 文献 中 
发 表 的 微小 RNA( microRNA ) 序列 和 注释 的 国际 数据 库 。miRBase 建 立 于 2002 年 ,截止 到 
2011 年 4 月 已 经 发 布 了 第 17 版 本 ,包含 了 140 多 个 物种 的 1.6 万 个 miRNA 记 录 。 图 1-5 显 示 了 
miRbase 中 miRNA 记 录 和 在 Pubmed 中 关于 miRNA 文 献 数 目的 增长 趋势 。miRBase 数 据 库 主 
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要 为 用 户 提供 以 下 几 种 服务 : 中 可 以 检索 已 经 公开 发 表 的 miRNA 序 列 和 注释 信息 ; @@ 可 以 
获得 和 下 载 miRNA 的 发 卡 和 成 熟 序 列 , 也 可 以 通过 网 页 ( http: //www.mirbase.org/ftp.shtml ) 下 
载 miRBase 中 的 所 有 序列 和 注释 信息 ; @miRBase Registry ( http: //www.mirbase.org/registry. 
shtml ) 允许 用 户 提交 新 发 现 的 miRNA ,并 提供 专 有 的 名 称 ; 由 用 户 可 以 通过 miRBase 数 据 库 
连接 到 microCom 获 得 预测 的 靶 基 因 。 
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图 1-5 miRBase 中 miRNA 记 录 和 在 Pubmed 中 关于 miRNA 文 献 数目 的 增长 趋势 
来 源 于 Kozomara A, Griffiths-Jones S.miRBase: integrating microRNA annotation and 
deep-sequencing data. Nucleic Acids Res,2001;39:152-157. 

5. UTRdb/UTRsite UTRdb 是 真 核 生物 mRNA 的 5” 端 和 3” 端 非 翻 译 区 序列 的 非 元 余 
数据 库 , UTRsite 搜 集 这 些 非 翻译 区 序列 中 的 功能 片段 ( http: //utrdb.ba.itb.cnr.it/ )。UTRdb/ 
UTRsite 数 据 库 现 在 主要 分 为 两 个 部 分 UTRef 和 UTRfull。UTRef 部 分 收录 了 来 自 于 79 个 物 
种 48.3 万 个 基因 的 47.3 万 条 5” UTR 和 52.7 万 条 3”UTR 记 录 , 同 时 还 存储 了 78.8 万 个 UTRsite 
模 体 .2 万 个 实验 验证 的 miRNA 的 靶 点 和 24.2 万 个 保守 区 域 。UTRfull 部 分 主要 针对 人 类 ， 
包括 了 来 自 于 ASPicDB( http: //t.caspur.it/ASPicDB/index.php ) 数据 库 全 长 转录 本 的 非 翻 
译 区 序列 ,12.4 万 个 5”UTR 和 19.4 万 个 3”UTR ,64.9 万 个 保守 元 件 和 10.5 万 个 实验 验证 的 
miRNA 靶 点 。 


三 、 蛋 白质 序列 的 获取 >> 


1. NCBI Protein database NCBI 的 Entrez 重 白 数据 库 ( http: //www.ncbinlm.nih.gov/sites/entrez ? 
db=protein ) 整合 了 来 自 于 多 种 资源 的 蛋白 质 序列 ,这 些 资源 包括 SwissProt, the Protein Information 
Resource, the Protein Research Foundation, the Protein Data Bank 和 从 GenBank 和 RefSeq 数 据 库 
中 有 注释 的 编码 区 直接 翻译 得 到 的 蛋 日 质 序 列 。 通 过 Entrez 蛋 白 数据 库 中 的 蛋白 质 序 列 记 
录 还 可 以 查看 相关 的 预 处 理 的 蛋白 序列 BLAST 比 对 结果 ,蛋白 质 结 构 , 保 守 的 蛋白 结构 域 ， 
核酸 序列 ,基因 组 和 基因 。 例 如 ,要 检索 人 类 发 状 分 裂 相关 增强 子 -5( hairy and enhancer of 
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split 5 ) 的 蛋白 质 序列 ,可 以 在 输入 栏 中 输入 检索 条 件 “( hairy and enhancer of split 5[Protein 
Name] ) AND human[Organism]" ,然后 点 击 “Search” 检 索 , 检 索 的 页 面 如 图 1-6 所 示 。 

















pro € vm Se a h E : 
Save search 2 i 
Display Settings: 局 GenPept Send to: © c 
RecName: Fullz Transcription factor HES-5; AltName: FullzClass B basic helix-loop- 
helix protein 38; Short-bHLHb38; AltName: Full=Hairy and enhancer of split 5 SER 
UniProtKB/Swiss-Prot Q5TAB9 1 
EASTA rapt: Analyze this seq 
~ ——— = o — ———— 一 Run BLAST 
Goto. ^ Identify Conserved Domain: 
Locus HESS, ar PRI 22-FEB-2012 Highlight Sequence Features 
DEFINITION RKecHame: pt r HES-5. AltName: Pull=Class B 
basic helix-loop-helix protein 38. Short-bHLHb: Find in this Sequenci 
5. 
ACCESSION QSTA39 
VERSION Q5TA89.1 GI:74145795 ! Articles about the HESS ge: 
DBSOURCE clues standard, HESS HUMAN, accession Q51A22. The e expen ione ae dian re HES! a ESS 
etr ons:B9DI8S 1 
teli gus m i 


sequence 

Oe Med Pin P daa. 

xrefs: DO2T2660.1, ADES2829.1, &L129286,21, CAX30820.1, CH4T1183.L, 
i 010 





xrefs (non-sequence databases): IPI: IPI00373977, UniGene:Hz, 5197. 
ProteinlodelPortal:Q5TA89, SNR:Q5TAS9, STKING:Q5TASS, 

PhosphoSite:Q5TAS9, DEDM: de PRIDE:Q5TAS9, 

Ensenb] : ENST0000037: T1414, 

Enseabl:ENS600000191921, Cone: 388535, EBGG:hra: 388585, identical proteins for Q5TAS9.1 


图 1-6 在 Entrez 中 检索 人 发 状 分 裂 相关 增强 子 一 5 蛋白 数据 


2. EXProt EXProt( database for experimentally verified protein functions, http: //www.cmbi. 
kun.nl/EXProt/ ) 是 一 个 非 元 余 的 蛋白 质数 据 库 , 只 存储 那些 在 基因 组 注释 计划 和 其 他 公共 数 
据 库 中 功能 得 到 实验 证 实 的 那些 蛋白 质 。EXProt 发 布 的 2.01 版 本 中 包括 了 6491 条 记录 。 这 
些 记录 来 自 于 大 肠 埃 希 菌 基因 组 的 PseudoCAP( http: //www.pseudomonas.com/ ) 计划 和 和 蛋白 质 
组 数据 库 CenProtEC( http: //genprotec.mbl.edu/ ) 还 有 EMBL 核 酸 序列 数据 库 的 原核 生物 部 分 。 
在 EXProt 中 的 记录 都 有 一 个 唯一 的 卫 号 和 相对 应 的 来 源 物 种 ,蛋白 序列 .功能 注释 ,来 源 数 
据 库 .对 应 的 基因 名 字 和 在 PubMed 相 关 的 文献 。 

3. MIPS 数据 库 (http: //mips.gsf.de/ ) 由 德国 莫 尼 黑 蛋 白质 序列 信息 中 心 Cdatabases at 
Munich information center for protein sequences, http: //www.helmholtz-muenchen.de/en/ibis ) ££ 
SEREH MIPSSCHERIZIETA— Z 91 AY EDS E OH FE LS He PAE ya AE SE 2 RIS 
系统 的 比较 基因 组 学 分 析 服 务 。 同 时 该 站 点 还 提供 基因 组 分 析 工 具 ER RI A PEGA 
分 析 、 和 蛋白 质 互 作 等 网 络 服务 。 

4. PIR 蛋白质 信息 数据 库 ( protein information resource, PIR ) ( http: //pir.georgetown. 
edu/ ) 是 由 美国 国家 生物 医学 研究 基金 会 NBRF( national biomedical research foundation ) 于 
1984 年 建立 的 一 个 综合 公共 生物 信息 资源 ,其 目的 是 支持 基因 组 、 和 蛋白 质 组 和 系统 生物 学 的 
研究 ,帮助 研究 者 鉴别 和 解释 蛋白 质 序列 信息 ,研究 分 子 进化 功能 基因 组 ,进行 生物 信息 学 
分 析 。PIR 数 据 库 除了 提供 蛋白 质 的 序列 数据 外 ,还 包括 以 下 的 信息 : 蛋白 质 名 称 、 分 类 ,来 
源 .原始 数据 的 参考 文献 .蛋白 质 功能 和 和 蛋 白质 一 般 特 征 ,序列 中 相关 位 点 和 功能 区 域 。PIR 
还 提供 了 超 家 族 、 域 和 模 体 水 平 上 的 蛋白 分 类 。 Ce 
基于 文本 的 交互 式 检索 .序列 相似 性 检索 和 综合 序列 相似 性 ,注释 信息 和 和 蛋白 质 家 族 信息 

高 级 检索 。 在 PIR 的 站 点 上 也 提供 了 常规 的 生物 信息 学 工具 ， 进行 更 深入 的 数据 发 气 。P PIR 
现在 已 经 与 Swiss-Prot 和 TrEMBIL 合 作 ,共同 构成 了 UniProt 数 据 库 。 

5. Swiss-Prot Swiss-Prot( UniProt/Swiss—Prot ) ( http: //www.expasy.org/sprot ) 由 Geneva 大 学 
和 欧洲 生物 信息 学 研究 所 (EBI ) 于 1986 年 联合 建立 的 , 它 是 目前 国际 上 权威 的 蛋白 质 序列 
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数据 库 。 数 据 库 由 蛋白 质 序列 条 目 构成 ,每 个 条 目 包含 蛋白 质 序列 .引用 文献 信息 、 分 类 学 
HE, .注释 等 ,注释 中 包括 蛋白 质 的 功能 、 转 录 后 修饰 .特殊 位 点 和 区 域 .二 级 结构 四 级 结 
构 与 其 他 序列 的 相似 性 .序列 残缺 与 疾病 的 关系 序列 变异 体 和 冲突 等 信息 。SWISS-PROT 
中 尽 可 能 减少 了 宛 余 序 列 ,并 与 其 他 30 多 个 数据 库 建 立 了 交叉 引用 ,其 中 包括 核酸 序列 库 、 
蛋白 质 序列 库 和 蛋白质 结 构 库 等 。Swiss-Prot 中 的 数据 主要 来 源 于 : 四 从 核酸 数据 库 经 过 翻 
译 推 导 而 来 ; @ 从 蛋白 质数 据 库 PIR 挑 选 出 合适 的 数据 ; 号 从 科学 文献 中 摘录 ; OMFS A R 
直接 提交 的 蛋白 质 序 列 数 据 。Swiss-Prot 在 2011 年 9 月 发 布 的 第 2011_09 版 本 中 存储 了 来 自 
于 20.1 万 篇 参考 文献 的 53.2 万 条 序列 记录 包括 了 1.8 亿 个 氨基 酸 ( 图 1-7 )。 

Swiss-Prot 数 据 库 与 其 他 和 蛋白 质数 据 库 相 比较 具有 三 个 明显 的 特点 : 在 Swiss-Prot 数 
据 库 中 每 一 个 序列 记录 包括 核心 数据 和 注释 两 大 类 。 核 心 数据 包括 序列 参考 文献 和 分 类 
信息 等 。 而 注释 包括 功能 描述 .翻译 后 修饰 结构 域 和 功能 位 点 、 蛋 白质 的 四 级 结构 .与 该 
蛋白 质 相关 的 疾病 和 序列 的 变化 信息 等 。@Swiss-Prot 数 据 库 尽 量 将 相关 的 数据 合并 , 降 
低 数据 的 宛 余 度 。 如 果 不 同 来 源 的 原始 数据 有 了 矛盾 , 则 在 相应 的 序列 特征 表 中 加 以 注释 。 
G)Swiss-Prot 目 前 已 经 建立 了 与 其 他 30 多 个 相关 数据 库 的 交叉 索引 ,便于 用 户 迅速 得 到 在 其 
他 数据 库 中 的 相关 信息 。 


Number of entries in UniProtKB/Swiss—Prot 
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图 1-7 Swiss 一 Prot 数 据 库 中 记录 的 数目 和 增长 趋势 
来 源 于 : http: /web.expasy.org/docs/re Inotes/re Istat.htm1 
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第 二 节 
双 序 列 比 对 


一 、 序 列 比 对 的 相关 概念 》》 


(一 ) 相似 性 与 同 源 性 


序列 比 对 ( sequence alignment ) 是 通过 在 序列 中 搜索 一 系列 单个 性 状 或 性 状 模式 来 比较 
2 个 ( 双 序 列 比 对 ) 或 更 多 (多 重 序列 比 对 ) 序 列 的 方法 。 序 列 比 对 最 根本 目的 之 一 是 通过 对 
比 不 同 物种 序列 的 相似 性 判断 它们 之 间 是 否 具 有 同 源 性 。 值 得 注意 的 是 ,相似 性 ( similarity ) 
和 同 源 性 ( homology ) 虽然 在 某 种 程度 上 具有 一 致 性 ,但 它们 是 完全 不 同 的 两 个 概念 。 相 似 
性 和 同 源 性 是 序列 比较 和 分 析 的 基础 。 同 源 序列 ,简单 地 说 ,是 指 从 某 一 共同 祖先 经 趋 异 进 
化 而 形成 的 不 同 序列 。 相 似 性 是 指 序列 比 对 过 程 中 用 来 描述 检测 序列 和 目标 序列 之 间 相 同 
DNA 碱 基 或 氨基 酸 残 基 顺 序 所 占 比 例 的 高 低 。 同 源 性 是 序列 同 源 或 者 不 同 源 的 一 种 论断 ， 
是 个 定性 的 概念 ,没有 度 的 差异 ,而 相似 性 是 两 个 序列 相关 性 的 量化 。 两 条 序列 之 间 要 么 是 
同 源 的 ,要 么 是 不 同 源 的 , 决 不 能 像 相似 性 那样 具有 多 或 少 的 数量 关系 ,例如 ,不 能 说 两 条 序 
列 之 间 有 90% 的 同 源 。 

如 果 两 个 DNA 序 列 经 过 序列 比 对 具有 较 高 的 相似 性 , 则 检测 序列 和 目标 序列 可 能 是 同 
源 序列 ; 而 当 相 似 性 程度 低 于 20% 时 ,就 难以 确定 或 者 根本 无 法 确定 其 是 否 具 有 同 源 性 。 同 
源 序列 可 进一步 分 为 两 种 : 直系 同 源 ( orthology ) 和 旁 系 同 源 ( paralogy )。 直 系 同 源 是 指 在 
种 系 形成 ( speciation ) 过 程 中 起 源 于 一 个 共同 祖先 的 不 同 种 系 中 的 DNA 或 蛋白 质 序列 。 知 
一 个 基因 原先 存在 于 某 个 物种 ,而 该 物种 分 化 为 了 两 个 物种 ,那么 新 物种 中 的 基因 是 直系 
同 源 的 ; 旁 系 同 源 的 序列 因 基 因 复 制 ( gene duplication ) 而 被 区 分 开 。 若 生物 体 中 的 某 个 基 
因 被 复制 了 ,那么 两 个 副本 序列 就 是 旁 系 同 源 的 。 直 系 同 源 的 一 对 序列 称 为 直系 同 源 体 
C orthologs ), 旁 系 同 源 的 一 对 序列 称 为 旁 系 同 源 体 ( paralogs )。 直 系 同 源 体 通常 有 相同 或 相 
似 的 功能 ,但 对 劳 系 同 源 体 则 不 一 定 : 由 于 缺乏 原始 的 自然 选择 的 力量 ,繁殖 出 的 基因 副本 
可 以 自由 的 变异 并 获得 新 的 功能 。 


(=) 空位 罚 分 概念 及 策略 


一 般 在 进行 双 序 列 或 者 多 序列 比 对 时 为 了 获得 两 个 或 多 个 序列 的 最 佳 比 对 要 对 序列 插 
入 空位 ( gap )。 空 位 是 指 在 进行 序列 比 对 时 ,为 了 获得 最 佳 比 对 结果 ,算法 权衡 后 在 两 条 或 
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多 条 序列 中 产生 的 间隔 区 。 引 入 空位 的 数量 和 位 置 对 比 对 结果 有 显著 影响 ,因此 必须 在 比 
对 计 分 时 对 其 罚 分 。 空 位 罚 分 ( gap penalty ) 指 序列 比 对 分 析 时 为 了 反映 核酸 或 氨基 酸 的 插 
入 或 缺失 等 情况 而 插入 空位 并 进行 罚 分 ,以 控制 空位 插入 的 合理 性 。 

除了 对 应 于 单字 符 插入 和 删除 的 空位 , 比 对 中 还 经 常用 到 更 大 的 对 应 于 多 个 连续 字符 
插入 和 删除 的 空位 。 多 个 连续 字符 的 插入 和 删除 可 由 多 次 独立 的 单字 符 插入 和 删除 造成 ， 
也 可 由 一 次 多 字符 插入 和 删除 造成 。 尽 管 单字 符 突 变 的 发 生 率 高 于 多 字符 突变 的 发 生 率 ， 
从 概率 上 说 ,引起 一 次 多 字符 插入 和 删除 的 概率 要 大 于 引起 多 次 独立 单字 符 插入 和 删除 的 
概率 。 此 外 ,对 于 长 的 空位 ,它们 出 现在 序列 的 头 . 中 和 尾 也 常常 具有 不 同意 义 。 最 优 的 序 
列 比 对 通常 具有 以 下 两 个 特征 : 尽 可 能 多 的 匹配 和 尽 可 能 少 的 空位 。 揪 入 任意 多 的 空位 可 
能 会 产生 较 高 的 分 数 ,但 找到 的 并 不 一 定 是 真正 相似 的 序列 。 

有 2 个 参数 应 用 于 空位 罚 分 设 定 ,一 个 与 空位 设置 ( gap opening) 有关, 男 一 个 与 空位 扩 
展 ( gap extension ) 有 关 ( 表 1-5 )。 任 一 空位 的 出 现 均 处 以 空位 设置 罚 分 ,而 任 一 空位 的 扩大 
必须 处 以 空位 扩展 罚 分 。 对 于 一 个 空位 长 度 为 k 的 罚 分 所 可 用 下 式 表 示 : 

wr=a+bk (1-1) 

其 中 a 是 空位 设置 罚 分 ,5 为 空位 扩展 罚 分 。 这 两 个 参数 值 设 置 的 变化 对 联 配 产生 影响 。 


表 1-5 空位 设置 和 空位 扩展 罚 分 对 联 配 的 影响 


空位 设置 罚 分 空位 扩展 罚 分 — 说 明 
X 大 极 少 插入 或 缺失 : 适用 于 非常 相关 和 蛋白 质 间 的 联 配 
大 小 少量 大 块 插入 : 用 于 整个 功能 与 可 能 插入 的 情况 
小 大 大 量 小 块 插入 : 适用 于 亲缘 关系 较 远 的 蛋白 质 同 源 性 分 析 
(=) 替换 记分 矩阵 


对 于 序列 中 的 插入 和 删除 突变 ,序列 比 对 采用 插入 空位 来 处 理 , 使 得 原本 对 应 的 字符 仍 
旧 能 够 对 应 ; 而 对 于 序列 中 的 替换 突变 ,需要 考虑 不 同 替换 的 意义 。 合 理 而 精确 的 记分 需要 
考虑 替换 的 各 种 情形 。 对 于 DNA 和 RNA 序 列 ,情况 特别 简单 ,施用 于 4 种 碱 基 和 6 种 彼此 间 替 
换 关 系 的 记分 规则 可 用 简单 的 蔡 换 记分 矩阵 来 描述 。 对 于 蛋白质 序列 ,因为 蛋白 质 由 20 种 
氨基 酸 构成 , 且 不 同 的 氢 基 酸 具 有 不 同 的 理化 性 质 ,情况 较为 复杂 ,存在 许多 不 同 的 替换 记 
分 矩阵 。 

由 于 替换 有 多 种 情形 ,上 且 可 按 不 同方 式 罚 分 ,如 何 精确 处 理 序列 中 的 替换 突变 十 分 重 
要 。 显 然 ,不 同 字 符 间 的 蔡 换 具 有 不 同 的 概率 ,也 具有 不 同 的 意义 ; 同时 ,不 同 物种 间 的 替换 
也 有 不 同 的 概率 和 意义 。 精 确 地 处 理 替 换 需 要 考虑 各 种 情形 , 而 方便 地 处 理 蔡 换 则 要 求 把 
不 同 的 处 理 方法 参数 化 ,这 些 参数 就 是 替换 记分 矩阵 ,它们 定量 地 标示 了 不 同 替 换 的 意义 。 

1. DNA 序 列 比 对 的 替换 记分 矩阵 

( 1 ) 等 价 和 矩阵 : 等 价 矩 阵 ( 表 1-6 ) 是 最 简单 的 一 种 替换 记分 矩阵 ,其 中 ,相同 核 昔 酸 间 的 
匹配 得 分 为 1 ,不 同 核 背 酸 间 的 替换 得 分 为 0。 尽 管 含义 清晰 明了 ,由 于 不 含有 碱 基 的 任何 理 
化 信息 和 不 区 别 对 待 不 同 的 替换 ,在 实际 的 序列 比 对 中 较 少 使 用 。 
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表 1-6 DNA MEE 
A T Cc 





a a > 
Ke o o olQ@ 


1 0 0 
0 1 0 
0 0 1 
0 0 0 

(2) BLAST HEME: AIKE Sz HERRER, WR SBE ECOSE IP KP RSA 
+5, 反 之 得 分 为 -4, 则 比 对 效果 较 好 。 表 1-7 是 其 替换 记分 矩阵 ,这 个 矩阵 广泛 地 被 DNA 序 列 
比 对 所 采用 , 称 为 BLAST 和 矩阵 。BLAST 是 目前 最 流行 的 核酸 序列 数据 库 搜索 程序 。 

表 1-7 BLAST 矩阵 


A Ress G 
A 5 -4 -4 -4 
T -4 5 -4 -4 
C -4 -4 5 -4 
G -4 =f -4 5 


( 3) f - Bii XB PE( transition-transversion matrix ): 核酸 的 碱 基 按 照 环 结构 特征 被 划分 
为 两 类 , KER RISA GEG ), 它 们 有 两 个 环 ; 另 一 类 是 喀 啶 ( 胞 喀 啶 C 胸腺 喀 喧 
T), 它 们 只 有 一 个 环 。 如 果 DNA 碱 基 的 替换 保持 环 数 不 变 , 则 称 为 转换 ,如 A 一 CG、C 一 T; 如 
果 环 数 发 生变 化 , 则 称 为 颠 换 ,如 A 一 C、A 一 T 等 。 在 进化 过 程 中 ,转换 发 生 的 频率 远 比 颠 换 
高 , 表 1-8 所 示 的 矩阵 用 来 反映 这 种 情况 ,其 中 转换 的 得 分 为 -1 , 而 颠 换 的 得 分 为 -5。 


表 1-8 转换 - 颠 换 矩阵 


A F C G 
A 1 -5 -5 -1 
T -5 1 -1 -5 
C -5 -1 1 -5 
G -1 -5 -5 1 


2. 蛋白 质 序 列 比 对 的 替换 记分 矩阵 ”对 于 和 蛋白质 序列 ,记分 矩阵 主要 用 于 记录 在 做 序 
列 比 对 时 两 个 相对 应 的 残 基 的 相似 度 。 简 单 的 替换 记分 办 法 ,如 +1 表 示 匹 配 ,0 表示 失 配 ,是 
不 够 的 。 构 成 蛋白 质 的 氨基 酸 具有 不 同 的 生物 化 学 特性 ,这 些 特性 可 影响 它们 在 进化 过 程 
中 的 相互 替换 。 下 面 介 绍 两 种 常用 的 氨基 酸 蔡 换 记 分 和 矩阵 。 

( 1) PAMÁB IE: 对 于 氨基 酸 之 间 的 替换 ,对 实际 蔡 换 率 的 直接 观察 常常 是 导出 合理 的 
记分 的 好 方法 ,由 此 产生 的 一 组 替换 记分 矩阵 是 点 突变 可 接受 矩阵 ( point accepted matrix, 
PAM )。 它 们 基于 氨基 酸 进化 的 点 突变 模型 , 即 如 果 两 种 氨基 酸 蔡 换 频 繁 ,说 明 自 然 界 易 接 
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受 这 种 替换 ,那么 这 对 氨基 酸 蔡 换 得 分 就 应 该 高 。PAM 和 矩阵 是 目前 蛋白 质 序列 比 对 中 最 广 

泛 使 用 的 记分 方法 之 一 ,1 个 PAM 的 进化 距离 表示 在 100 个 残 基 中 发 生 一 个 可 以 接受 的 残 基 

突变 的 概率 。 对 应 于 一 个 更 大 进化 距离 间隔 的 突变 矩阵 ,可 以 通过 对 原始 矩阵 进行 一 定 的 

数学 处 理 获 得 。 将 PAM-1 自 乘 n 次 ,可 以 得 到 PAM-n。 例如 ,PAM250 相 似 性 分 数 矩 阵 ( 表 1-9 ) 

相当 于 在 两 个 序列 之 间 具 有 20% 的 残 基 匹 配 。 对 于 PAM-7z 和 矩阵 , n 越 小 表示 和 氨基酸 变异 的 可 

能 性 越 小 ,高 相似 序列 之 间 的 比 对 应 该 选用 n 值 小 的 矩阵 , 低 相似 序列 之 间 的 比 对 应 该 选用 n 

值 大 的 矩阵 。 








表 1-9 PAM-250 和 矩阵 


ARNO C OE 6.0 | LOK eB S 1 WY V B z 
A 2-2 0 0-2 0 0 1 -i -1 -2 -1 -1 -3 1 1 1-6-3 0 0 0 
R -2 6 0-1-4 1-1-3 2 -2 -3 3 0-4 0 0-1 2 -4 -2 -1 0 
N 0 0 2 2-4 1 1 0 2-2 -3 1 -2 -3 0 1 0 -4 -2 -2 2 1 
D 0-1 2 4-5 2 3 1 1-2-4 0-3-6-1 0 0-7-4-2 3 3 
C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -4 -5 
Q 0 1 1 2 -5 4 2-1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 1 3 
E 0-1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 3 3 
G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 0 0 
H-1 2 2 1-3 3 1-2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0-2 1 2 
I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2-2 2 1 -2 -1 0 -5 -1 4 -2 -2 
L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6-3 4 2 -3 -3 -2 -2 -1 2 -3 -3 
K -1 3 1 0-5 1 0-2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 1 0 
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -2 -2 
F3 4 5 Bae sed 8 4 4. 2 8 0 09 -$ Be 0 T AS 
Poi ô 04-3 0 - © O0 -» - o3 5 bl DU o6 5 d I 6 
& 1 €$ 1 9 oa GTA SOBs tei ase 0 ü 
T l1 -4 € 9 -- €9 0 -I U-2 D 1 À ai 9$ 4-8 d Oe 
W «5 2 -b P RB 5 TFS 5 -9 -& 4 0 5 3 -5 d) € 8 3 5 
Y «9 A sb OQ bob os OH HH 2 — T o 33 3 0 ID OI o3 4 
Y 9 o Ro aAa 38 4 2 2 2 oo 8o 2 4 à 2 
E oU I Z 34 i 3 0 4» 3-8 iaai © d x3 5 3 
Z 0 0 1 3-5 3 3 0 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 

PAM 矩 阵 的 制作 步骤 是 : 


1 ) 构 建 序 列 相 似 ( 大 于 85% ) 的 比 对 。 
2 ) 计 算 氨 基 酸 /的 相对 突变 率 mj(j 被 其 他 氨基 酸 替 换 的 次 数 )。 
3 ) 针 对 每 个 氨基 酸 对 i ,计算 7 被 蔡 换 的 次 数 。 
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4 ) 替换 次 数 除 以 相对 突变 率 ( mj )。 

5 ) 利 用 每 个 氨基 酸 出 现 的 频 度 对 /进行 标准 化 。 

6 ) 取 常用 对 数 , 得 到 PAM-i(i, j )o 

(2) BLOSUMAB : BLOSUM( block substitution matrix ) 矩阵 由 Henikoff 夫 妇 从 蛋白质 模 
块 数据 库 BLOCKS 中 找 出 的 另 一 种 氨基 酸 蔡 换 记分 和 矩阵 ,用 于 解决 序列 的 远 距离 相关 。 在 构 
建 矩 阵 过 程 中 ,通过 设置 最 小 相同 残 基数 百分比 将 序列 片段 整合 在 一 起 ,以 避免 由 于 同一 个 
残 基 对 被 重复 计数 而 引起 的 任何 潜在 偏差 。 在 每 一 片段 中 ,计算 出 每 个 残 基 位 置 的 平均 贡献 ， 
使 得 整个 片段 可 以 有 效 地 被 看 做 为 单一 序列 ,通过 设置 不 同 的 百分比 ,产生 了 不 同 矩 了 泗 。 表 
1-10 所 示 的 BLOSUM 和 矩阵 是 由 具有 62% 相 同比 例 的 序列 被 组 合 统 计 后 形成 的 和 矩阵。 注意 ,在 
比 对 高 度 相 似 的 序列 时 使 用 较 高 值 的 矩阵 (高 至 BLOSUM-90 ), 在 比 对 差异 大 的 序列 时 使 用 较 
低 值 的 矩阵 ( 低 至 BLOSUM-30 )。 对 于 BLOSUM-n 和 矩阵 , n 越 小 则 表示 氨基 酸 相 似 的 可 能 性 越 
小 ,高 相似 的 序列 之 间 比 较 应 该 选用 n 值 大 的 矩阵 , 低 相 似 序列 之 间 的 比 对 应 该 选用 n 值 小 的 
和 矩阵。 例如 , BLOSUM-62 用 来 比较 62% 相 似 度 的 序列 , BLOSUM-80 用 来 比较 80% 左 右 的 序列 。 


表 1-10 BLOSUM-62 和 矩阵 








AORN DC O' E-0 HN T = MM Fw" sS T wy 9—B Z 

A 4-1 22 0 toa © 1 0 -3 — Q -2 -l 
R -l 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 
N -2 0 6 1-3 0 0 0 1 3 -3 0 -2 -3 -2 1 0 4 -2 3 3 0 
D -2 -2 1 6-3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 
Q -1 1.0 0-3 5 2 -2 0 -3 -2 '1 0 -3 -1 0 -1 -2 -1 -2 0 3 
E -21 0 0 2-4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -l1 -2 
H -2 0 1 -1 -3 0 0-2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2-3 0 0 
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2-3 1 0 -3 -2 -1 -3 -1 3 -3 -3 

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4-2 2 0 -3 -2 -1 -2 -1 1 -4 -3 
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2-1 5 0 -2 -1 -1 -i -1 1 -3 -l 
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7-1 -1 -4 -3 -2 -2 -l 
S 1-1 1 0-1 0 0 0-1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 
T 0 -1 O -1 -1 -1 -i -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -l 
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 
Y -2 -2 -2 -3 -2 -l1 -2 -3 2 -1 -l1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 
B -2 -1 3 4-3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -l1 -4 -3 -3 4 1 


N 
1 
c 
o 


1-3 3 4 -2 0 -3 -3 1 -1 -3 -1 0-1-3-2-2 1 4 
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二 、 双 序列 比 对 算法 >> 


生物 序列 ( DNA 序 列 、RNA 序 列 和 蛋白质 序列 ) 可 以 看 作 是 由 固定 的 字母 表 中 的 字母 所 
组 成 的 字符 串 ,两 条 序列 s 和 t 的 比 对 可 以 简单 的 表示 为 : 把 s 和 t 这 两 条 序列 上 下 排列 起 来 ,在 
某 些 位 置 插 入 空位 ,然后 依次 比较 它们 在 每 一 个 位 置 上 字符 的 匹配 情况 ,从 而 找 出 使 这 两 条 
序列 产生 最 大 相似 度 得 分 的 排列 方式 和 空位 插入 方式 。 


(一 ) 点 阵 图 法 


点 阵 ( dot matrix ) 分 析 是 一 种 简单 的 图 形 显示 序列 相似 性 的 方法 。 将 两 条 待 比较 的 序 
列 分 别 放 在 矩阵 的 X/Y 轴 上 ,从 下 往 上 和 从 左 到 右 比较 , 当 对 应 行 与 列 的 字符 匹配 时 , 则 在 和 矩 
阵 对 应 的 位 置 上 打点 。 逐 个 比较 所 有 的 字符 对 ,最 终 形成 一 个 点 矩阵 。 点 阵 图 可 以 应 用 于 
自身 比 对 ,用 来 寻找 序列 中 的 正 向 或 反 向 重复 序列 ,查找 蛋白 质 的 重复 结构 域 ,相同 残 基 重 
复出 现 的 低 复杂 区 和 RNA 二 级 结构 中 的 互补 区 域 。 同 时 点 阵 图 也 可 以 对 两 条 序列 的 相似 性 
做 整体 的 估计 。 点 阵 分 析 具 有 直观 性 和 整体 性 的 优点 ,而 且 不 依赖 于 空位 参数 ,可 以 寻找 两 
序列 间 所 有 可 能 的 残 基 匹 配 。 点 阵 分析 允 许 随时 动态 地 改变 最 高 和 最 低 界限 值 , 可 以 用 来 
搜索 区 分 信号 和 背景 标准 的 严格 程度 。 总 之 ,点 阵 分 析 不 依赖 任何 先决 条 件 ,是 一 种 可 用 于 
初步 分 析 的 理想 工具 。 但 是 点 阵 分析 具 有 不 能 很 好 地 兼容 打分 和 矩阵、 滑动 窗口 和 与 国 值 的 
选择 过 于 经 验 化 、 信 噪 比 低 和 不 适合 进行 高 通 量 数据 分 析 等 缺点 。 常 用 的 点 阵 分 析 工 具 见 
表 ]1-=11。 





#1-11 常用 的 点 阵 分 析 工 具 


工具 名 网 址 ET a 
DNA Strider http: //www.cellbiol.com/soft.htm Mac 
Dotter http: //sonnhammer.sbc.su.se/Dotter.html Unix/Linux, X- Windows 
Dotlet http: //myhits.isb-sib.ch/cgi-bin/dotlet Web 
DNAdot http: //arbl.cvmbs.colostate.edu/molkit/dnadot/ Web 


(=) 动态 规划 算法 


对 于 两 条 序列 的 比 对 问题 人 们 提出 了 很 多 算法 ,其 中 基于 动态 规划 的 算法 是 目前 最 基 
本 的 算法 。1970 年 Saul Needleman 和 Christian Wunsch 两 人 首先 将 动态 规划 算法 用 于 两 条 序 
列 的 全 局 比 对 。 全 局 比 对 是 指 将 参与 比 对 的 两 条 序列 里 面 的 所 有 字符 进行 比 对 。 全 局 比 对 
主要 被 用 来 寻找 关系 密切 的 序列 。 后 来 , Temple Smith 和 Michael Waterman 两 人 于 1981 年 对 
双 序 列 的 局 部 比 对 进行 了 研究 ,产生 了 Smith-Waterman 算 法 。 这 两 种 算法 均 可 以 用 于 核酸 
和 和 蛋白质 序列 。 在 给 定 空位 罚 分 和 替换 矩阵 情况 下 ,它们 总 是 能 给 出 具有 最 高 ( 优 ) 联 配 值 
的 联 配 。 但 是 ,这 个 联 配 并 不 需要 达到 生物 学 意义 上 的 显著 水 平 。 动 态 规划 首先 对 于 如 下 
假定 的 序列 : 

C1 )a, b 是 使 用 某 一 字符 集 世 的 序列 ( DNA 或 蛋白 质 序列 ); 
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(2)m = a 的 长 度 ; 

( 3 )n =b 的 长 度 ; 

(4)S(i,j) 是 按照 某 蔡 换 记 分 和 矩阵 得 到 的 前 级 a[ L..i] jbl 7...j] 最 大 相似 性 得 分 ; 
(5 )w( c,d ) 是 字符 c 和 d 按 照 蔡 换 记 分 矩阵 计算 的 得 分 。 

可 按照 某 种 记分 规则 建立 得 分 矩阵 : 

S(1,0)20, O<Si<m 

$(0,))20, O<j<n 





0 
S(i-1, j-1)+w(a,,6, 7 

S(i, j) =max 4 i l ) 匹配 或 错 配 (1-2) 
S(i-1, j)+w(a,,-) 插入 


例如 ,对 于 序列 a=ACACACTA ,序列 b=AGCACACA ,记分 规则 w( 匹 配 )=+2 ;w( a,- )=w( -， 
b )=w( 失 配 )=-1, 则 获得 的 得 分 矩阵 如 图 1-8 所 示 。 接 着 , 反 向 搜寻 最 大 得 分 ,同时 记 下 读 
取 路 径 。 为 了 得 到 最 佳 比 对 ,必须 从 得 分 最 高 的 位 置 S i,j ) 开 始 , 在 矩阵 的 (i-1,7),(i,j-1) 
或 (i-1, j-1) 位 置 中 寻找 下 一 个 最 大 得 分 位 置 , 记 下 路 径 ( 画 箭 头 ), 当 两 个 (或 三 个 ) 位 置 
得 分 相等 时 , 取 对 角 线 方向 , 依 此 规则 搜寻 ,直至 到 起 点 (0,0 )。 在 本 例 中 ,最 大 得 分 对 应 
的 位 置 分 别 为 (8,8)(7,7)07,6)06,5) (5,4)(4,3)03,2)02,1)(01,1) 和 (0,0)( 图 


1-9). 

- A C A C A G T A - A G & © A C T A 
- 0 0 0 0 0 0 0 0 0 - 0 0 0 0 0 0 0 0 0 
A 0 2 1 2 1 2 1 0 2 A 0 2 1 2. 1 2 1 0 2 
G 0 1 1 1 1 1 1 0 1 G 0 i 1 1 1 1 1 0 1 
S= G 0 B 3 2 3 2 3 2 1 S= C 0 a 2 3 2 3 2 1 
A 0 2 2 5 4 5 4 3 4 A 0 Z2 2% 4 5 4 3 4 
C 0 1 4 4 FA 6 7 6 5 G 4 1 4 Aas 6 7 6 5 
A 0 2 3 6 6 9 8 7 8 A 0 2 3 6 By 8 8 
C 0 1 4 5 8 8 11 10 9 G D 1 4 S 8 IM 
A 0 2 3 6 7 10 10 10 12 A 0 2 3 6 10 ^12 

图 1-8 一 个 得 分 矩阵 实例 图 1-9 得 分 矩阵 路 径 实例 


最 后 构建 最 佳 匹配 。 在 读 取 路 径 中 要 求 : 对 角 线 对 应 匹配 (或 失 配 ) 上 下 箭头 对 应 删 
除 .左右 箭头 对 应 插入 。 依 此 规则 ,我 们 可 以 得 到 本 例 的 最 佳 匹配 为 : 

序列 a = A - C A c A C T A 

序列 b = A G C A C A C = A 

现在 看 算法 的 复杂 度 。 从 所 使 用 的 数据 结构 本 身 及 其 计算 过 程 来 看 ,序列 两 两 比 对 基 
本 算法 的 空间 复杂 度 和 时 间 复 杂 度 都 是 0( mn )。 

动态 规划 算法 大 致 包括 : 四 按照 规则 建立 得 分 矩阵 ; @@ 反 向 读 取 最 大 得 分 ,构建 最 佳 匹 
配 。 每 一 步 都 包括 若干 子 步 又。 按照 规则 建立 得 分 矩阵 的 流程 是 ; 
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for i=0 to length( A ) 
F(i,0)——0 
for j=0 to length( B ) 
F(0,j)—0 
for i=1 to length( A ) 
for j= 1 to length( B ) 
{ 
Choicel —— FC i-1,j-1) € SCACi), BG )) 
Choice2 —— F( i-1,/ )- d 
Choice3 + F( i, j-1 )+d 
F( i, j )<— max( Choicel , Choice2, Choice3 ) 
} 


反 向 读 取 最 大 得 分 ,构建 最 佳 匹 配 流程 是 : 








"m" 


AlignmentA <— 
AlignmentB «— "" 
i length( A ) 
j *— length( B ) 
while (i » 0 and j » 0) 
{ 
Score —— F( i,j ) 





ScoreDiag — F( i- 1,/-1) 

ScoreUp — FC i,j- 1) 

ScoreLeft — F( i - 1,7) 

if ( Score == ScoreDiag + S( AC i-1 ), BCj-1 ))) 





AlignmentA + A( i-1 )+ AlignmentA 
AlignmentB —— B( j-1 ) + AlignmentB 


} 
else if ( Score == ScoreLeft + d ) 


{ 
AlignmentA + A( i-1 )+ AlignmentA 


"on 


AlignmentB <— "-" + AlignmentB 


i-——i-1 


otherwise ( Score == ScoreUp + d ) 
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m 
{ 





"mn n 


AlignmentA 二 "-" + AlignmentA 
AlignmentB <— B( j-1 ) + AlignmentB 
Isel 

} 


| E 
(=) 基于 双 序列 比 对 的 数据 库 搜索 


一 条 序列 与 整个 数据 库 中 所 有 序列 比 对 的 过 程 可 以 看 做 是 双 序列 比 对 的 扩展 。 本 质 
上 这 与 两 条 序列 的 比较 没有 什么 两 样 ,只 是 要 重复 成 千 上 万 次 。 但 是 要 快速 实现 数据 库 
的 搜索 并 非 易 事 。 无 论 Needleman-Wunsch 的 算法 还 是 Smith-Waterman 算 法 ,对 于 数量 不 
大 的 序列 来 说 其 运行 时 间 上 可 接受 。 对 于 大 规模 的 数据 库 搜 索 , 它 们 都 非常 耗 时 ,所 以 必 
须 考 虑 在 一 个 合理 时 间 内 完成 搜索 比较 操作 。FASTA 和 BLAST 是 目前 基于 局 部 相似 性 的 
数据 库 搜 索 程 序 。BLAST( basic local alignment search tool, 基本 局 部 联 配 搜索 工具 ) 是 基 
于 匹配 短 序列 片段 ,用 一 种 强 有 力 的 统计 模型 来 确定 未 知 序列 与 数据 库 序列 的 最 佳 局 部 
联 配 。BLAST 算 法 本 身 很 简单 , 它 的 基本 要 点 是 序列 片段 对 (segment pair) 的 概念 。 所 谓 
序列 片段 对 是 指 两 个 给 定 序列 中 的 一 对 子 序列 ,它们 的 长 度 相 等 ,并 且 可 以 形成 无 空位 的 
完全 匹配 。BLAST 首 先 找 出 探测 序列 和 目标 序列 间 所 有 匹配 程度 (以 得 分 计 ) 超过 一 定 效 
值 的 序列 片段 对 ,然后 对 片段 对 根据 给 定 的 相似 性 阔 值 进行 延伸 ,得 到 一 定 长 度 的 相似 性 
片段 ,最 后 给 出 高 分 值 片段 对 (high-scoring pairs, HSPs )。 改 进 后 的 BLAST 人 允许 空位 的 插 
入 。BLAST 实 际 上 是 综合 在 一 起 的 一 组 程序 ,不 仅 可 用 于 直接 对 和 蛋白质 序列 数据 库 和 核酸 
序列 数据 库 进 行 搜索 ,而 且 可 以 将 探测 序列 翻译 成 蛋白 质 后 再 进行 搜索 ,以 提高 搜索 结果 
的 灵敏 度 。 

大 多 数 研究 目前 都 通过 国际 互联 网 Internet 应 用 NCBI 研 制 的 BLAST 程 序 来 进行 DNA 和 和 蛋 
白质 序列 相似 性 搜索 。 用 一 组 BLAST 程序 联 配 可 以 快速 进行 核酸 和 蛋白质 序 列 库 的 相似 性 
检索 。 采 用 BLAST 的 基本 算法 编 成 了 若干 个 不 同 的 程序 ,分 别 使 用 特定 的 序列 库 和 用 于 特定 
类 型 的 输入 序列 。BLAST 家 族 包含 的 成 员 很 多 ,提供 各 种 不 同 需要 的 比 对 分 析 , 最 常见 也 是 
最 重要 的 五 个 成 员 分 别 是 blastn 、blastp 、blastx ,tblastm 和 tblastx( 表 1-12 )。 下 面 以 刚才 的 人 类 
发 状 分 裂 相关 增强 子 -5 和 蛋白 为 例 ,说 明 如 何 通 过 NCBI 网 页 搜索 该 蛋白 的 同 源 序列 ,步骤 如 下 : 

1. 下 载 人 类 发 状 分 裂 相关 增强 子 -5 和 蛋白 序列 。 

2. 登录 NCBI 主 页 http: //www.ncbi.nlm.nih.gov/。 

3. 点 击 “BLAST”。 

4. 对 话 框 中 输入 人 类 发 状 分 裂 相 关 增 强 子 -5 蛋白 序列 。 

5 

6 











. 选择 蛋白 质数 据 库 Non-redundant protein sequences( nr ) (11-10 )。 
. 其 他 参数 使 用 默认 参数 。 
7. 点 击 BLAST 按 钮 ,得 到 数据 库 搜索 的 结果 (图 1-11 )。 点 击 感 兴 趣 的 序列 可 以 得 到 序 
列 匹 配 的 详细 界面 。 
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程序 名 


Blastn 
Blastp 
Blastx 
TBlastn 
TBlastx 








查询 序列 


核酸 
和 蛋白质 


表 1-12 BLAST 家 族 常用 的 工具 
数据 库 - ”“ “搜索 方法 
核酸 ”用 查询 序列 逐一 搜索 数据 库 中 的 序列 
和 蛋白质 ”用 查询 序列 逐一 搜索 蛋白 质数 据 库 中 的 序列 
蛋白 质 ”将 核酸 序列 翻译 成 蛋白 质 序列 后 逐一 搜索 蛋白 质数 据 库 中 的 序列 
核酸 ” ”将 查询 蛋白 质 序列 逐一 搜索 核算 数据 库 中 的 核酸 序列 翻译 后 的 蛋白 质 序 列 


核酸 将 核酸 序列 翻译 成 蛋白 质 序列 后 逐一 搜索 核酸 数据 库 中 的 核酸 序列 翻 
译 后 的 蛋白 质 序列 





Zo BLAST® 


Home Recent Results Saved Strategies Help 


My NCBI 


[Sign In] [Register 


» NCBY BLAST! blastp suite i Standard Protein BLAST 



































BLASTP programs search protein databases using a protein query. more... Reset page 
Enter Query Sequence i 
Enter accession number(s), gi(s), or FASTA sequence(s) © Clear Query subrange @) 
|MAPSTVAVELLSP VVEKHRRDRINSSIEQLKLLLEQEF ARHQPUSKLEKADILEMAVSYLK Eo | 
[HSKAF VAAAGPKSLHQDYSEGYSWCLQEAVQFLTLHAASDTQMKLLYHFQRPPAAPAAPAKEPKAPGAAP non aa 
| PPALSAKATAAAAAAHQP ACGLWRPV ECCE 
o 
{ hes te tn SZMEDM: rur 2 TT 
Or, upload file — [选择 文件 ] 未 选择 文件 e 
Job Title = cf oa zai] dip $ a È AN AS 
" "md — s 
Enter a descriptive title for your BLAST search & 
C Align two or more sequences © 
Choose Search Set 
OR [Non-redundant protein sequences (nr) V @ 
Optional [Enter organism name or -completions wil be suggested — | TlExclude CE 
J Enter organism common name, binomial, or tax id. Only 20 top taxa will be shown. 4 
eem LJ Models (XM/XP) C Uncultured/environmental sample sequences 
p zd = = LO Es Sat 
Optional 





Enter an Entrez query to limit search e 


图 1-10 输入 BLAST 查询 序列 .选择 数据 库 





图 1-11 BLAST 查询 返回 结果 图 示 
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网 络 版 本 的 Blast 服 务 具有 方便 ,容易 操作 ,数据 库 同步 更 新 等 优点 ,缺点 是 不 利于 操作 
大 批量 的 数据 ,同时 也 不 能 自己 定义 搜索 的 数据 库 , 只 能 对 NCBI 所 提供 的 数据 库 进行 序列 
相似 性 分 析 ; NCBI 同 时 提供 了 可 本 地 化 安装 的 Blast 软 件 包 ,此 本 地 化 的 软件 包 人 允许 用 户 在 
自己 的 计算 机 上 安装 Blast 系 统 , 并 可 构建 自己 的 数据 库 , 大 大 提高 了 同 源 性 分 析 的 准确 性 和 
一 致 性 。 

FASTA 是 另 一 个 常用 的 基于 局 部 比 对 的 数据 库 搜 索 程序 ,算法 是 由 Lipman 和 Pearson 
于 1985 年 发 表 的 。 假 定 探测 序列 s 和 目标 序列 t 是 两 个 被 比 对 的 蛋白 质 序列 , 且 长 度 分 别 为 
lsl=m, ltl=n。FASTA 进 行 的 比较 由 确定 两 者 公共 的 ( 即 相 匹配 的 ) 短 片段 开始 ,这 些 短 片段 称 
为 k 元 组 (k-tuple ), 短 片段 的 起 始 长 度 k 一 般 是 1~2 个 氨基 酸 (k 的 值 是 一 个 参数 , 称 ktup, 对 于 
DNA 序 列 它 通常 要 大 些 )。 首 先 扫 描 序 列 s ,产生 一 个 表 ( 称 作 查 询 表 ), 表 中 列 出 s 中 k 元 组 的 
所 有 位 置 。 然 后 扫描 序列 t, 同时 在 s 的 查询 表 中 查找 t 的 每 个 k 元 组 。 处 理 公 共 出 现 的 k 元 组 
的 结果 是 构造 一 个 动态 规划 矩阵 ,其 对 角 线 上 是 匹配 的 k 元 组 。FASTA 然 后 对 公共 k 元 组 作 
详细 的 分 析 。 当 这 些 k 元 组 在 同一 对 角 线 上 且 相 距 不 远 时 ,合并 这 些 k 元 组 ,这 些 合并 的 k 元 
组 构成 所 谓 的 区 域 ( region ), 它 们 可 被 看 做 是 BLAST 中 的 片段 对 。 根 据 区 域 中 所 含 的 匹配 或 
失 配 ,一 个 区 域 被 赋予 某 个 记分 。 接 着 ,对 若干 个 最 佳 区 域 用 PAM 和 矩阵 进行 重新 记分 ,这 些 
新 记分 中 的 最 佳 者 成 为 s 或 t 之 间 相 似 性 的 一 个 初步 度量 , 称 作 初始 记分 。 对 一 个 探测 序列 ， 
它 与 数据 库 中 每 一 个 序列 都 产生 一 个 初始 记分 。 初 始 记 分 然后 用 于 对 所 有 数据 库 序列 进行 
排序 ,对 排序 最 高 的 若干 序列 用 动态 规划 法 产生 一 个 优化 记分 ,其 过 程 与 使 用 标准 动态 规划 
法 进行 序列 比 对 十 分 相似 。 对 于 短片 段 起 始 长 度 的 选择 ,小 的 ktup 增 加 敏感 性 而 大 的 ktup 增 
加 特异 性 。 





第 三 节 
多 序列 比 对 


Section 3 Multiple Sequence Alignment 
一 、 多 序列 比 对 简介 >> 


多 序列 比 对 ( multiple sequence alignment ) 是 两 个 以 上 DNA 序 列 、RNA 序 列 或 蛋白 质 序 
列 的 比 对 ,目标 是 发 现 多 条 序列 的 共性 。 双 序列 比 对 是 序列 分 析 的 基础 。 然 而 ,对 于 构成 基 
因 家 族 的 成 组 序列 来 说 ,我 们 要 建立 多 个 序列 之 间 的 关系 ,这 样 才能 揭示 整个 基因 家 族 的 特 
征 。 多 序列 比 对 在 阐明 一 组 相关 序列 的 重要 生物 学 模式 方面 起 着 相当 重要 的 作用 。 

与 双 序 列 比 对 比较 ,多 序列 比 对 具有 更 广泛 的 重要 应 用 ,包括 以 下 几 个 方面 : 

1. 获得 共性 序列 ”由 多 序列 比 对 所 得 到 的 与 所 有 序列 距离 最 近 的 序列 称 为 这 些 序列 的 
共性 序列 ( consensus sequence ), 共 性 序列 这 一 特性 使 之 常用 于 数据 库 搜 索 和 芯片 探 针 设计 ， 
用 于 识别 具有 高 相似 度 的 序列 。 

2. 序列 测序 ”如果 一 个 DNA 或 蛋白 质 序列 被 多 个 机 构 测序 , 则 测序 结果 在 某 些 核 背 酸 
或 氨基 酸 上 可 能 存在 差异 ,对 这 些 测序 结果 进行 全 局 多 序列 比 对 可 发 现 这 些 差异 之 处 ,形成 
的 共性 序列 理论 上 最 为 接近 真实 的 序列 。 其 次 ,对 包含 重奏 区 的 多 个 测序 序列 进行 局 部 多 
序列 比 对 可 发 现 这 些 重症 区 ,实现 测序 序列 的 拼接 。 男 外 ,一 个 类 似 的 应 用 是 由 表达 序列 标 
签 ( expressed sequence tag, EST ) 组装 较 长 的 重合 群 ( contig ) 其 至 完整 的 mRNA。 

3. 突变 分 析 ”同一 种 系 不 同 个 体 的 基因 组 存在 因 突 变 而 产生 的 差异 ,最 常见 的 是 单 核 
芽 酸 多 态 性 分 析 , 它 分 析 同 一 种 系 不 同 个 体 基 因 组 中 单个 核 背 酸 的 包括 转换、 缺失 和 插入 在 
内 的 变异 。 这 些 差异 可 通过 多 序列 比 对 进行 揭示 。 

4. 种 系 分 析 ”相近 种 系 动 植物 的 基因 和 基因 组 由 于 源 自 共同 的 直接 祖先 而 具有 高 度 的 
相似 性 ,反之 , 远 距 种 系 动 植物 的 基因 和 基因 组 由 于 源 自 不 同 的 直接 祖先 而 享有 更 少 的 相似 
性 ,这 一 事实 使 得 多 序列 比 对 常常 用 于 根据 基因 或 基因 组 序列 的 差异 判断 种 系 关系 。 多 序 
列 比 对 通常 是 构造 种 系 树 的 第 一 步 。 

5. 保守 区 段 分 析 ”基因 组 中 功能 不 同 的 区 段 在 进化 中 面 对 不 同 的 选择 压力 ( selective 
pressure ), 即 重要 的 区 段 不 易 接受 突变 而 非 重 要 的 区 段 易 于 接受 突变 。 任 何 基因 组 都 包含 
大 量 不 同 的 在 选择 压力 下 保持 进化 上 稳定 的 保守 区 段 。 首 先 ,编码 具有 重要 功能 蛋白 质 的 
基因 高 度 保守 ,基因 中 的 外 显 子 尤其 保守 。 其 次 ,大 量 的 基因 调节 单元 ,例如 启动 子 和 增强 
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子 , 在 不 同 种 系 中 通常 高 度 保 守 。 此 外 ,近年 来 发 现 许 多 非 编 码 RNA 也 是 非常 保守 的 。 多 序 
列 比 对 是 找 出 进化 上 保守 的 这 些 区 段 的 基本 方法 。 

6. 基因 和 和 蛋白 质 功 能 分 析 “分 子 生物 学 和 发 育 生 物 学 实验 是 揭示 基因 和 和 蛋白 质 功能 的 
经 典 方 法 。 在 大 量 基 因 和 和 蛋白质 的 功能 得 以 揭示 和 更 多 基因 和 和 蛋白 质 的 序列 得 以 测定 后 ， 
根据 与 功能 已 知 的 同 源 基因 和 蛋白质 进 行 多 序列 比 对 来 推断 新 基因 和 蛋白质 的 功能 已 成 为 
越 来 越 普遍 的 一 个 研究 手段 。 

7. RNA 和 蛋白质 结 构 分 析 类 似 地 ,可 使 用 多 序列 比 对 考察 种 系 相近 的 RNA 和 和 蛋白 
质 家 族 ,通过 结构 已 知 的 RNA 和 蛋白质 推断 未 知 RNA 和 蛋白质 的 结构 。 需 要 注意 的 是 , 核 
苷 酸 序列 和 氨基 酸 序列 的 进化 速度 比 RNA 结 构 和 和 蛋白质 结 构 的 进化 速度 要 快 ,因此 仅 凭 
多 序列 比 对 仍 难以 确定 RNA 和 蛋白质 的 结构 。 例 如 ,人 B 球 蛋白 (beta-globin ) 和 肌 球 蛋白 
( myoglobin ) 只 有 25% 的 氨基 酸 序列 相同 ,但 两 者 的 三 维 结构 却 几乎 相同 。 

8. 基因 组 结构 分 析 多 序列 比 对 可 用 于 整个 基因 组 ,揭示 基因 组 的 结构 特征 和 进化 特 
征 。 随 着 越 来 越 多 基因 组 的 测序 ,多 序列 比 对 已 频繁 用 于 基因 组 结构 分 析 中 ,最 典型 的 应 用 
是 UCSC 基 因 组 浏览 器 和 Ensembl 基 因 组 浏览 器 。 


二 、 多 序列 比 对 的 方法 >>> 


这 些 年 来 ,在 生物 信息 学 领域 提出 了 许多 关于 多 序列 比 对 的 算法 ,如 动态 规划 算法 、 渐 
进 策略 算法 、 和 迭代 法 基于 一 致 性 的 方法 .遗传 算法 、 模 拟 退 火 算法 、 隐 马尔 可 夫 模 型 . 星 形 比 
对 和 树 形 比 对 等 多 序列 比 对 算法 。 


(一 ) 动态 规划 算法 


动态 规划 算法 由 Needle-man 和 Wunsch 于 1970 年 提出 ,最 初 用 于 求 两 个 序列 的 最 佳 比 
对 。 当 把 动态 规划 的 基本 思想 推广 到 多 序列 比 对 时 就 是 所 谓 的 N 维 动态 规划 算法 。 由 于 动 
态 规划 法 的 时 间 与 空间 复杂 性 太 高 ,人 们 发 展 了 该 算法 的 多 种 变 体 使 得 它们 能 够 在 合理 的 
时 间 内 找到 优化 比 对 。 变 体 之 一 是 Altschul 等 在 1989 年 引入 的 一 个 算法 , 它 能 极 大 地 缩小 k 


维 动态 规划 表 的 搜索 空间 ,其 中 心思 想 如 下 。 首 先 ,对 k 个 序列 的 a 个 配对 按 动态 规划 法 


进行 配对 比 对 ,由 于 一 个 序列 比 对 对 应 于 礁 空 间 动 态 规划 表 中 的 一 个 路 径 , 这 些 配 对 比 对 
可 看 作 是 K 维 空间 中 的 这 个 路 径 在 不 同 的 2 维 空间 中 的 投影 。 其 次 ,在 相应 的 2 维 空间 中 ,可 
以 限制 投影 所 可 能 历经 的 空间 ,从 而 限制 在 原始 的 K 维 空间 中 寻找 优化 多 序列 比 对 历经 的 路 
径 。 第 三 ,每 个 投影 定义 了 原始 { 维 空间 的 一 个 子 空间 ,这 些 子 空间 的 交汇 包含 了 k 个 序列 的 
优化 比 对 。 该 算法 通常 采用 SP 函数 计 分 ,并 使 用 动态 规划 法 搜索 子 空间 的 交汇 来 找到 多 序 
列 比 对 在 K 维 空间 中 的 路 径 。 一 个 关键 点 是 ,需要 确定 一 个 将 多 序列 比 对 投影 成 配对 比 对 的 
开 广 上限 ,该 开支 上 限 的 选择 应 能 保证 动态 规划 法 找到 k 个 序列 的 最 优 比 对 。 在 使 用 启发 式 
方法 确定 配对 比 对 的 开支 上 限时 , 若 比 对 的 质量 表明 开支 上 限 不 够 大 , 则 应 增 大 开支 上 限 。 
但 是 ,一 味 地 增 大 开支 上 限 并 不 能 持续 提高 多 序列 比 对 的 质量 。 由 于 该 动态 规划 法 的 变 体 
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本 质 上 属于 启发 式 算法 , 它 有 一 切 启发 式 算法 所 固有 的 缺陷 , 即 当 开支 上 限定 得 过 小 时 它 可 
能 找 不 到 最 优 比 对 ,而 当 开 支 上 限定 得 过 大 时 它 所 耗费 的 时 间 可 能 与 标准 动态 规划 法 所 差 
无 几 。 


(二 ) 渐进 策略 算法 
渐进 策略 算法 最 早 由 Feng 和 Doolittle 于 1987 年 提出 。 渐 进 多 序列 比 对 首先 使 用 动态 规 
划 法 构造 全 部 + 个 序列 的 a 个 配对 比 对 (pairwise alignment ), 然 后 以 计 分 最 高 的 配对 比 对 


作为 多 序列 比 对 的 种 子 , 按 计 分 高 低 依次 选择 序列 ,逐渐 向 已 构造 的 多 序列 比 对 中 加 入 序 
列 ,形成 一 个 树 状 结构 的 多 序列 比 对 结果 。 

渐进 多 序列 比 对 需要 三 个 步骤 : 第 一 ,使 用 动态 规划 法 构造 每 个 序列 的 配对 比 对 , 包 
括 ClusterW 在 内 的 许多 比 对 算法 在 这 一 步 使 用 距离 矩阵 而 不 是 相似 性 矩阵 来 描述 序列 间 
的 关联 性 ; 第 二 ,由 距离 矩阵 构造 一 棵 指导 树 ( guide tree ), 树 的 两 个 主要 特征 是 拓扑 结构 
和 分 校长 度 , 它 一 般 并 不 被 当 作 是 种 系 树 , 只 反映 了 参与 比 对 的 多 个 序列 如 何 相 关联 ,用 
来 确定 向 正在 进行 的 多 序列 比 对 加 入 新 序列 的 次 序 ; 第 三 ,以 计 分 最 高 的 配对 比 对 作为 多 
序列 比 对 的 种 子 , 根 据 指 导 树 逐渐 向 多 序列 比 对 中 加 入 序列 。 这 种 方法 在 质量 尤其 是 计 
算 速度 上 存储 空间 及 可 比 对 的 序列 数目 方面 比 动态 规划 算法 更 优良 。 在 比 对 过 程 中 遵 
循 “ 一 旦 引入 一 个 空位 则 始终 保持 这 个 空位 ”的 原则 。 为 了 最 大 程度 地 残 基 匹配 , 比 对 过 
程 中 采用 可 接受 的 点 突变 矩阵 PAM。 不 仅 允 许 相同 残 基 的 匹配 ,而且 允许 相似 残 基 的 匹 
配 。 其 缺点 是 不 能 保证 比 对 的 结果 是 数学 上 的 最 优化 比 对 。 首 先 ,渐进 多 序列 比 对 可 能 
会 被 一 些 伪 强 的 \ 实 际 上 是 坏 的 种 子 所 误导 。 如 果 一 开始 选择 的 两 条 序列 的 配对 比 对 与 
实际 上 的 最 优 多 序列 比 对 不 一 致 ,那么 初始 的 配对 比 对 中 的 错误 在 整个 多 序列 比 对 构造 
过 程 中 将 始终 存在 并 持续 传播 。 其 次 ,在 比 对 的 任何 阶段 出 现 失 配 时 (例如 在 配对 比 对 中 
加 入 空位 ), 这 些 失 配 不 是 被 纠正 而 是 被 传播 到 最 终结 果 。 再 者 ,更 糟糕 的 是 配对 比 对 可 
能 无 法 组 成 一 个 相 容 的 多 序列 比 对 (图 1-12 )。 以 上 因素 使 得 渐进 多 序列 比 对 对 于 距离 非 
常 接近 的 序列 效果 很 好 ,而 当 序 列 间 的 距离 较 远 时 效果 不 佳 。 后 期 的 渐进 多 序列 比 对 软 
件 对 这 些 缺 陷 进 行 了 改进 。 
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图 1-12 三 个 序列 的 配对 比 对 未 必 总 能 组 合成 一 个 多 序列 比 对 
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(三 ) 迭代 算法 


在 渐进 多 序列 比 对 中 ,一 个 序列 一 经 加 入 构造 的 比 对 结果 其 配对 比 对 便 不 再 重新 处 理 ， 
因此 对 在 渐进 比 对 过 程 中 发 现 的 错误 或 不 适当 的 记分 没有 机 会 进行 更 正 ,这 提高 了 比 对 的 
运行 效率 但 牺牲 了 准确 性 。 当 起 始 的 比 对 处 理 的 是 较 远 距离 的 序列 时 ,其 蕴含 的 错误 对 多 
序列 比 对 的 影响 尤其 严重 。 一 类 称 作 迭 代 法 的 方法 能 够 克服 渐进 多 序列 比 对 的 这 个 不 足 。 
迭代 法 的 基本 过 程 是 先 用 渐进 多 序列 比 对 产生 一 个 初始 结果 ,再 对 序列 的 不 同 子 集 进行 反 
复 比 对 并 利用 这 些 结果 重新 进行 多 序列 比 对 ,目标 是 改进 多 序列 比 对 的 总 计 分 值 。 和 迭代 法 
常常 使 用 随机 搜索 或 者 通过 对 比 对 结果 进行 重 排 来 寻找 更 优 的 解 ,迭代 持续 至 比 对 记分 值 
不 再 提高 。 


(四 ) 基于 一 致 性 的 方法 


渐进 多 序列 比 对 的 基本 方法 是 先 产生 全 部 的 配对 比 对 ,然后 根据 配对 比 对 的 计 分 高 低 
逐渐 构造 多 序列 比 对 。 基 于 一 致 性 的 方法 采用 了 男 一 种 利用 序列 信息 的 方式 。 这 里 ,一致 
性 指 的 是 对 于 序列 x、y 和 z, 如 果 x; 比 对 于 zi 且 z 比 对 于 yp, 则 x 应 比 对 于 y,。 因 此 ,基于 一 致 性 方 
法 的 基本 特点 是 充分 利用 多 个 序列 间 的 比 对 信息 对 配对 比 对 进行 更 合理 的 计 分 。 例 如 , 根 
据 x 和 yj 同时 比 对 于 z 而 调整 x 和 yy 的 比 对 计 分 ,如 果 序 列 x 中 的 字符 x; 比 对 于 序列 y 中 的 字符 y, 
的 似 然 率 ( likelihood ) AP( x;~ y;l x, y ) WA 


P(x, ~P; |x,y.2) F Pin ~Z |x,z)P(y; ~Z] yz) (1-3) 
k 





基于 一 致 性 的 方法 在 多 序列 比 对 中 对 每 对 序列 中 的 每 对 字符 计算 如 上 的 似 然 率 。 根 据 
基准 测试 数据 的 研究 ,基于 一 致 性 方法 的 多 序列 比 对 产生 的 结果 经 常 比 渐进 多 序列 比 对 产 
生 的 结果 更 准确 。 


(五 ) 遗传 算法 


使 用 遗传 算法 的 多 序列 比 对 把 序列 打 碎 成 许多 小 片段 ,然后 反复 重组 这 些小 片段 ,重组 
过 程 中 通过 在 各 个 序列 的 不 同位 置 引 入 空位 来 优化 一 个 目标 函数 (通常 是 SP 计 分 函数 ), 使 
得 多 个 序列 得 以 最 优 地 比 对 。 作 为 一 种 启发 式 算法 ,遗传 算法 不 保证 找到 多 序列 比 对 的 最 
优 解 ,而 且 当 超过 20 个 序列 时 比 对 变 得 相当 慢 。 一 个 用 遗传 算法 对 蛋白质 序 列 进行 比 对 的 
软件 是 SAGA( sequence alignment by genetic algorithm )。 

(六 ) 模拟 退火 算法 

模拟 退火 法 的 基本 原理 是 ,通过 对 一 个 由 某 个 方法 产生 的 多 序列 比 对 进行 一 系列 重组 
而 使 比 对 进一步 优化 ,因为 这 些 重 组 有 可 能 发 现 比 原 比 对 更 优 的 比 对 。 类 似 于 遗传 算法 , 模 
拟 退火 法 也 最 大 化 一 个 类 似 于 SP 计 分 函数 的 目标 函数 ,用 于 比 对 的 定量 评估 。 另 外 , 它 还 
使 用 一 个 “温度 因子 ”( 模 拟 退 火 法 名 称 的 由 来 ) 来 决定 重组 的 速率 和 每 个 重组 发 生 的 似 然 
性 。 在 典型 的 应 用 中 ,高 重组 率 低 似 然 性 和 低 重 组 率 高 似 然 性 交换 使 用 ,前 者 用 于 处 理 序列 
中 的 远 距 离 区 段 而 后 者 用 于 处 理 序 列 中 的 局 部 区 段 。 一 个 使 用 模拟 退火 法 的 软件 是 MSASA 


( multiple sequence alignment by simulated annealing )。 
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(七 ) 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 是 一 类 概率 模型 ,组 成 一 个 隐 马 尔 可 夫 模 型 的 要 素 包 括 : 一 系列 状 
态 、 每 个 状态 间 的 转换 概率 、 每 个 状态 输出 每 个 字符 的 概率 以 及 由 状态 输出 的 字符 所 组 
成 的 序列 。 在 基于 隐 马 尔 可 夫 模 型 的 多 序列 比 对 中 , DNA 序 列 和 和 蛋白 质 序列 可 看 作 是 由 
不 同 的 状态 所 产生 的 输出 所 构成 的 。 当 把 一 个 碱 基 或 一 个 氨基 酸 表示 为 一 个 节点 并 由 
此 把 要 比 对 的 多 个 序列 用 图 表示 时 (这 种 图 称 有 向 无 环 图 directed acyclic graphzk ffi FF El 
partial-order graph, 图 1-13 ), 多 序列 比 对 相当 于 对 图 进行 简 并 ,把 每 列 中 所 有 相同 的 字符 
归于 一 个 节点 中 。 特 别 是 , 若 在 一 个 列 里 所 有 的 序列 均 有 相同 的 字符 , 则 它 在 有 向 无 环 图 
中 仅 被 编码 成 一 个 节点 ; 若 一 个 节点 的 下 一 列 有 ?个 不 同 的 字符 , 则 该 节点 有 7 个 向 外 的 导 
向 这 些 字 符 的 连接 。 另 外 ,一 个 模型 对 空位 .匹配 和 失 配 的 每 个 可 能 组 合 都 赋予 一 个 概率 。 
找 出 最 优 比 对 相当 于 找 出 最 小 公共 超 图 ( minimal common supergraph ) (图 1-13 )。 在 这 种 
隐 马 尔 可 夫 模 型 里 ,可 观测 到 的 状态 由 一 个 个 待 比 对 序列 的 列 所 揭示 ,而 隐 含 的 状态 表征 
了 这 些 序列 的 祖先 序列 或 共性 序列 。 由 于 存在 庞大 的 可 能 状态 序列 ,一 一 搜索 这 些 序列 
不 切实 际 ,求解 这 类 隐 马 尔 可 夫 模 型 的 方法 是 所 谓 的 Viterbi 算 法 , 它 也 是 一 个 动态 规划 
法 的 算法 。 基于 不 同 的 隐 马 尔 科 夫 模型 , 人们 开发 了 多 个 在 计算 效率 和 应 用 规模 方面 有 
所 不 同 的 软件 ,正确 地 使 用 不 同 的 隐 马 尔 可 夫 模 型 要 比 正确 地 使 用 不 同 的 渐进 多 序列 比 
对 软件 复杂 。 最 简单 的 软件 可 能 是 POA( partial-order alignment ), 而 一 个 风格 类 似 但 功 
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图 1-13 隐 马 尔 科 夫 模型 和 三 个 蛋白 质 序列 PHSFTYVMT、 PGSFTYW, 
RFTGFW 的 最 小 公共 超 图 
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能 更 广 的 软件 是 SAM( sequence alignment and modeling system ), 它 被 广泛 用 于 和 蛋白 质 结 
构 预 测 。 使 用 隐 马 尔 可 夫 模 型 进行 多 序列 比 对 的 长 处 包括 它 能 对 序列 个 数 有 较 高 要 求 。 
当 序列 间 一 致 性 较 高 时 ,需要 20~50 个 序列 进行 多 序列 比 对 ,而 当 序列 间 有 较 大 变异 时 ， 
可 能 需要 多 达 100 个 序列 来 进行 可 靠 的 多 序列 比 对 。 


( 八 ) 星 形 比 对 和 树 形 比 对 


星 形 比 对 是 简单 地 基于 一 个 固定 序列 与 所 有 其 他 序列 的 配对 比 对 而 建立 的 ,这 个 固定 
序列 是 星 的 中 心 。 令 s1… :5 是 需 比 对 的 kt 个 序列 ,为 构造 一 个 星 比 对 ,首先 需 挑 选 一 个 中 心 
序列 s., 然 后 对 每 个 下 标 不 等 于 c 的 序列 s, 使 用 动态 规划 法 作 s. 与 .的 双 序列 比 对 ,费时 O( kn’ ) 
(假定 序列 长 均 为 n )。 接 着 遵循 “一 旦 引入 一 个 空位 则 始终 保持 这 个 空位 ”的 原则 将 这 些 配 
对 比 对 向 s。 汇 集 ,在 此 过 程 中 不 断 地 往 s. 中 加 入 空位 以 适 配 新 加 入 的 序列 。 中 心 序列 的 选择 
是 星 比 对 的 关键 ,一 个 方法 是 逐个 测试 多 个 候选 序列 ,择优 而 取 , 男 一 个 方法 是 计算 全 部 配 


对 比 对 ,然后 选择 使 2 similarity(s,, s.) 最 大 的 序列 为 中 心 序列 。 


当 需 要 比 对 的 序列 可 构成 一 棵 进化 树 时 ,可 以 根据 树 的 边 所 对 应 的 配对 比 对 计算 全 
部 序列 整体 的 相似 性 ,而 不 是 用 SP 函数 计算 配对 比 对 的 相似 性 。 具 体 方法 是 ,假定 有 k 个 
序列 和 一 个 惟有 k 个 叶子 的 树 , 则 树叶 与 序列 具有 一 一 对 应 性 。 如 果 对 树 的 每 个 内 部 节点 
指派 一 个 序列 ,就 能 计算 每 个 边 的 权 , 它 是 与 该 边 相 连 的 两 个 节点 所 对 应 的 两 个 序列 间 的 
相似 性 。 树 的 计 分 , 即 全 部 序列 整体 的 相似 性 ,是 所 有 边 的 权 的 和 。 树 比 对 的 任务 是 找 出 
一 个 能 使 树 记分 最 大 的 内 部 节点 的 指派 ( 即 为 每 个 内 部 节点 指派 一 个 序列 )。 树 比 对 的 一 
个 简单 例子 是 图 1-14, 通 过 指派 序列 CT 给 内 节点 x 和 序列 CG 给 内 节点 y, 得 到 一 个 树 计 分 
6, 计 算 该 计 分 的 规则 是 如 果 a=b 则 p( a, b ) =1 ,否则 为 0 ; pla, - )=-1。 根 据 该 规则 ,连接 
叶子 序列 CAT 和 内 部 序列 x=C7T 的 边 的 权 值 是 1, 而 连接 叶子 序列 CG 和 内 部 序列 y=CG 的 边 
的 权 是 2。 








图 1-14 一 个 包 禽 四 个 序列 的 树 比 对 


三 、 多 序列 比 对 常用 工具 和 数据 库 》》 


表 1-13 和 表 1-14 分 别 列 出 了 常见 的 多 序列 比 对 的 软件 和 数据 库 。 
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表 1-14 常见 的 多 序列 比 对 数据 库 





BLOCKS 类 隐 与 模型 库 , 无 空 p http: //blocks.fherc.org/ 
InterPro IK f PROSITE, PRINTS, ProDom http: //www.ebi.ac.uk/interpro/ 

Pfam, SMART , TICRfam 的 资源 
CDD 保守 结构 域 数 据 库 http: //www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml 
Pfam 隐 马 模型 库 http: //pfam.sanger.ac.uk/ 
PRINTS SwissProt/TrEMBL 的 蛋白 指纹 http: //bioinf.man.ac.uk/dbbrowser/PRINTS/index.php 
PROSITE 蛋白 质 模 体 字典 http: //prosite.expasy.org/ 


(—) CLUSTAL W 


CLUSTAL W 软 件 是 一 个 目前 最 为 普遍 使 用 的 多 序列 比 对 程序 ( http: //www.ebi.ac.uk/ 
Tools/msa/clustalw2/ ), 采 用 渐进 的 多 序列 比 对 方法 , 先 将 多 个 序列 两 两 比 对 构建 距离 矩阵 ， 
反映 序列 之 间 两 两 关系 ; 然后 根据 距离 矩阵 计算 产生 系统 进化 指导 树 , 对 关系 密切 的 序列 

进行 加 权 ; 然后 从 最 紧密 的 两 条 序列 开始 ,逐步 引入 邻近 的 序列 并 不 断 重 新 构建 比 对 ,直到 
所 有 序列 都 被 加 入 为 止 。CLUSTAL W 程 序 有 很 多 版 本 ,可 以 基于 UNIX、DOS 和 WINDOWS 
等 多 种 操作 平台 同时 被 许多 常用 的 序列 分 析 软 件 所 集成 。 从 ftp: //ftp.ebi.ac.uk/pub/software/ 
clustalw2/ 地 址 可 以 得 到 它 的 不 同 版 本 。ClustalW 的 在 线 服务 界面 见 图 1-15, 目 前 它 的 最 高 版 


ClustalW2 - - Multiple Sequence Alignment - 
ClustalW2 is a general purpose multiple sequence alignment program for DNA or proteins. 
New version! Clustal Omega is now available for protein sequences - give it a try! 
Use this tool 

STEP 1 - Enter your input mem 

Enter or paste a set of Protein | sequences in any supported format 





| 
| _ A 


Or, upload a file: [选择 文件 | | 未 选择 文件 





STEP 2 - Set your Pairwise Alignment Options 

Alignment Type: © Slow O Fast 

menm cons Sma ta re for that reason, are not visible. 
(Click here, ifyou want t view or change the default settings) 


STEP 3 - Set your Multiple Sequence Alignment Options 
The default settings will fulfill the needs of most users and, for that reason. are not visible. 
More options... | (Click here, if you want to view or change the default settings.) 


图 1-15 ClustalW 的 在 线 服 务 界 面 
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本 是 2.1。 对 于 大 多 数 使 用 者 来 说 ,普遍 采用 的 是 运行 于 WINDOWS 界 面 的 版 本 CLUSTAL X。 
目前 ,该 程序 的 最 新 版 本 是 CLUSTAL X 2.1。 该 程序 能 支持 7 种 输入 序列 格式 。 当 序列 中 超 
过 85% 是 A, C, G, T, U, N 时 ,程序 自动 认为 这 是 个 核酸 序列 ,否则 认为 是 蛋白 质 序 列 , 通 常 
使 用 者 采用 Fasta 格 式 。 例 如 ,通过 NCBI 的 Entrez 工 具 检 索 分 别 得 到 人 ( Homo sapiens ) 小 鼠 
( Mus musculus )、 大 鼠 ( Rattus norvegicus ) 和 鸡 ( Gallus gallus ) 等 四 种 动物 的 发 状 分 裂 相关 
增强 子 -5 蛋 白 序列 ,将 这 些 序列 以 FASTA 格 式 投 入 到 CLUSTAL W 界 面 输 入 框 中 ,点 击 ,得 到 
多 序列 比 对 结果 见 图 1-16。 





= Help : MESE : 

= FAQ ClustalW2 Results 

= Jalview Result Summary Guide Tree Submission Details Submit Another Job 
Alignment 


» Related Applications 
Multiple Sequence 


Download Alignment File Show Colors 


Alignment CLUSTAL 2.1 multiple sequence alignment 

Phylogeny 
gi [3913838 | sp |P70120. 1 |HESS_MO MAPSTVAVEMLSPKEKNRLRKPVVEKMRRDRINSSIEQLKLLLEQEFARM 50 
gi [547630 | sp 903062. 1 |HESS_RAT MAPSTVAVEMLSPKEKNRLRKPVVEKMKRDRINSSIEQLKLLLEQEFARM 50 
gi |74745795 | sp |QSTAS9. 1 |HESS_H MAPSTVAVELLSPKEKNRLRKP VVEKMRRDRINSSIEQLELLLEQEFARH 50 
gi [80101663 | gb |AAX13956. 1 | NAPSALSLETLTPEEKNRLRKPTVEKLRRORTESSIBQUKLLLEKEPQRH 50 


gee OK C CXORRGIOROIOIoIoKok folk : Xokololololoiorolololooioroioio cook doc 


gi [3913838 | sp |P70120. 1 |KESS. MO QPNSKLEKADILEMAVSYLKHSKAFAAAAGPKSLHQDYSEGTSWCLQEAV 100 
gi [547630 | sp 003062. 1 |HESS_RAT QPNSKLEKADILEMAVSYLKHSKAF AAAAGPKSLHQDYSEGYSWCLQEAY 100 
ei |74745795 | sp |QSTABS. 1 |HESS_H QPNSKLEKADILEMAVSYLKHSKAFVAAAGPKSLHQDYSEGYSWCLQEAV 100 
gi [0101663 | gb |AAX13956. 1 | QPNSKLEKADILEMTVSYLKYSRAFAASA--KSLQQDYCEGYANCLKEAL 98 
Sototolotootolotelolololok IOI ok ook oko. KAKI Xolokc olor oorr tO © 


gi [3913838 | sp |P70120. 1 |HESS_Mo QFLTLHAA-SDTQMKLLYHFQRPP-APAAPAKEPPAPGAAPQPARSSAKA 148 
zi [547630 | sp |903062. 1 |HESS_RAT QFLTLHAA-SDTQNKLLYHFQRPP-APAAPVKETPTPGAAPQPARSSTKA 148 
gi [74745795 | sp |Q5TA89. 1 |KESS X QFLTLHAA-SDTQMKLLYMFQRPPAAPAAPAKEPKAPGAAPPPALSAKAT 149 


gi [60101663 | |AAX13956. 1 | QFLSLHSANTETQHKLICHFQRSQ-—-AMPKDSGSPSAS-—--TSTHQP 140 
RR OR: XOóIK, * 来 1%.: *: 
gi [3913838 | sp |P70120. 1 |HES5_MO AAAAVSTSRQPACGLYRPN 167 
gi [547630 | sp 003062. 1 |HESS, RAT AAS-VSTSRQSACGLERPY 166 
ti [74745795 [=p ]QSTABS. 1 [HESS X AAA--AAAHQPACGLWRPY 186 
gi [80101663 | gb |AAK13956. 1 | yeaah 157 
3 DX, lok 


图 1-16 Clustalway £ FP Ext 2E X 
(—) MUSCLE 


FH 20044F., MUSCLE( multiple sequence alignment by log—expectation, http: //www.ebi.ac.uk/ 
Tools/msa/muscle/ ) 由 于 其 准确 性 和 出 色 的 速度 而 成 为 一 个 流行 的 用 于 大 量 序列 多 序列 比 对 
的 软件 。MUSCLE 的 在 线 服务 界面 如 图 1-17 所 示 。 据 报道 ,使 用 桌面 计算 机 MUSCLE 可 以 在 
21 秒 内 完成 1000 个 长 度 为 282 的 蛋白 质 序列 的 比 对 。MUSCLE 的 方法 分 为 两 个 步骤 。 首 先 ， 
使 用 渐进 多 序列 比 对 产生 一 个 初始 结果 ,其 中 含有 根据 每 对 序列 的 相似 性 计 分 构造 的 一 棵 
指导 树 。 其 次 ,重新 计算 相似 性 计 分 , 据 此 改进 指导 树 并 再 用 渐进 多 序列 比 对 产生 一 个 更 新 
的 结果 。 这 一 过 程 迭代 地 进行 ,而 算法 根据 新 计算 的 SP 计 分 值 是 否 增加 而 决定 是 接受 还 是 
拒绝 新 产生 的 比 对 结果 。 


(三 ) ProbCons 
基于 一 致 性 的 多 序列 比 对 软件 ProbCons( probabilistic consistency—based multiple alignment, 


http: //probcons.stanford.edu/ )。ProbCons 的 在 线 服 务 界面 见 图 1-18。ProbCons 分 五 步 进行 蛋 
白质 多 序列 比 对 。 第 一 ,对 每 对 序列 中 的 每 对 字符 计算 似 然 率 ,得 到 一 个 似 然 率 矩 阵 。 第 二 ， 
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MUSCLE - Multiple Sequence Alignment 


MUSCLE stands for MUltiple Sequence Comparison by Log- Expectation. MUSCLE is claimed to achieve both 
better average accuracy and better speed than ClustalW2 or T-Coffee, depending on the chosen options. 


Use this tool 


STEP 1 - Enter your input sequences 
Enter or paste a set of sequences in any supported format: 





| 


| 

| 

Or upload a file: 未 选择 文件 
STEP 2 - Set your Parameters 


| OUTPUT FORMAT: [Pearson/FASTA | 





The default settings will fulfill the needs of most users and, for that reason, are not visible 
(Click here, if you want to view or change the default settings ) 


STEP 3 - Submit your job 
[C Be notified by email (Tick this box if you want to be notified by email when the results are available) 


图 1-17 MUSCLE Z RRS FG 


PROBCONS 


Probabilistic Consistency-based Multiple 
Alignment of Amino Acid Sequences 





PROBCONS is an efficient protein multiple sequence alignment program, which has demonstrated 
a statistically significant improvement in accuracy compared to several leading alignment 
tools. 


The email server is currently down. In the meantime, please try the CONIKAlign 
server web interface. 


BASIC PARANETERS 





E-mail address 


E-mail address (again) | i 
Input sequence file 未 选择 文件 





Consistency reps (2 Mi 

Iterative refinement [100 sl 
reps 

Pre-training reps fo v 


Output format ONFA CCLUSTALW 





COEPUTE ALIGNEENT 


图 1-18 ProbCons 的 在 线 服务 界面 
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用 动态 规划 法 计算 每 个 配对 比 对 的 预期 精度 ( expected accuracy ), 它 是 得 到 正确 比 对 的 字符 
数 除 以 较 短 序列 的 长 度 , 计 分 根据 上 述 条 件 概 率 公 式 计算 而 不 采用 通常 的 PAM 或 BLOSUM 
和 矩阵 , 且 空 位 罚 分 设 为 0。 第 三 ,根据 相关 条 件 概率 的 计算 重新 调整 配对 比 对 的 计 分 ,这 一 步 
用 到 了 由 多 个 配对 比 对 揭示 的 序列 中 字符 的 保守 性 ,产生 更 准确 的 对 替换 的 记分 。 第 四 ,用 
分 层 聚 类 法 ( hierarchical clustering ) 构造 一 棵 基于 相似 性 而 不 是 距离 的 期 望 准确 性 指导 树 。 
第 五 ,根据 该 期 望 准确 性 指导 树 对 所 有 的 序列 进行 渐进 性 比 对 ,方法 如 同 ClusterW。 在 这 些 
步骤 之 后 ,还 可 进一步 用 迭代 法 进行 优化 。 


(四 ) MultAlin 





MultAlin 是 一 个 基于 Web 服 务 的 程序 , 可 登录 http: //www-archbac.u-psud.fr/genomics/ 
multalin.html 上 执行 多 序列 比 对 。MultAlin 方 法 也 是 从 一 系列 的 两 两 比 对 开始 ,计算 出 相似 
性 分 值 , 再 根据 这 些 分 数值 进行 分 层 聚 类 。 当 序列 都 被 分 类 后 ,进行 多 序列 比 对 ,计算 出 多 
序列 比 对 中 序列 两 两 比 对 的 新 数值 ,基于 这 些 数值 ,再 做 新 分 类 ,这 个 过 程 不 端 循环 ,直到 相 
似 性 分 数值 不 再 上 升 为 止 。 


(五 ) Pfam 


Pfam 是 一 个 综合 的 蛋白 质 家 族 的 大 集合 ,同时 收集 了 序列 多 重 比 对 和 和 蛋白 质 家 族 的 
profile HMMS。 在 Pfam 数 据 库 中 可 以 选择 蛋白 质 及 DNA 序 列 搜索 ,关键 词 搜 索 ,也 可 以 
选择 查看 Pfam 数 据 库 的 多 序列 比 对 信息 (BROWSE PFAM ), 以 及 分 类 搜索 (TAXONOMY 
SERCH ), 还 可 以 看 到 关于 Pfam 的 帮助 信息 。 

Pfam 数 据 库 由 两 个 部 分 组 成 : Pfam-A 和 Pfam-B。Pfam -A 的 质量 比较 高 ,是 手工 编辑 、 

多 重 比 对 格式 的 蛋白 质 家 族 集 合 。 对 于 每 一 个 家 族 , Pfam 提 供 了 4 种 特征 : 注释 、 种 子 比 对 、 
profile HMM 和 完全 比 对 。 完 全 比 对 可 能 很 大 ， Pfam 前 20 个 家 族 的 完全 比 对 都 含有 超过 2500 
个 序列 。 种 子 比 对 含有 较 少 数量 的 代表 序列 。 虽 然 这 些 Pfam -A 的 数据 涵盖 了 在 许多 基础 
序列 数据 库 中 很 大 的 比例 ,为 了 让 更 多 的 全 面 了 解 已 知 蛋白 质 ,另外 一 些 从 ProDom 数 据 库 
自动 生成 的 被 称 为 Pfam - B。 虽 然 质量 较 低 , Pfam - B 可 以 被 用 来 鉴别 功能 保守 区 域 ,尤其 
是 没有 Pfam -A 的 时 候 。 

由 于 存在 众多 的 多 序列 比 对 方法 和 软件 ,选择 合适 的 软件 既 十 分 重要 又 常常 不 易 。 可 
遵循 如 下 几 条 原则 ,首先 ,序列 的 种 类 影响 软件 的 选择 ,有 些 软 件 专 用 于 蛋白 质 或 DNA 序 列 ， 
有 些 软 件 则 两 者 丝 可 。 比 对 和 蛋白质、 cDNA 和 RNA 序 列 时 一 般 选 择 全 局 比 对 ,因为 整个 序列 
常常 是 一 个 功能 单元 ,而 比 对 DNA 序 列 时 应 考虑 glocal 或 syntenic 比 对 ,因为 DNA 序 列 中 常常 
同时 包含 保守 和 非 保 守 的 区 段 。 其 次 , 比 对 的 目的 影响 软件 的 选择 。 如 果 和 蛋白 质 和 RNA 序 
列 可 能 包含 多 个 保守 的 域 ( domain ), 且 比 对 的 目的 是 发 现 这 些 域 , 则 应 选用 syntenic 比 对 。 发 
现 多 个 域 的 典型 情形 是 寻找 一 个 基因 中 被 多 个 内 含 子 分 隔 的 多 个 外 显 子 .一 个 蛋白 质 中 被 
多 个 非 保 守 域 分 隔 的 多 个 保守 域 和 一 段 基因 调节 区 中 被 多 个 非 保守 区 段 分 隔 的 保守 位 点 。 
第 三 ,序列 的 长 短 影 响 软件 的 选择 。MSA 不 能 比 对 超过 500 字 符 的 序列 , 比 对 较 长 的 DNA 序 
列 可 用 MAP2 ,而 比 对 整 条 染色 体 甚 至 整个 基因 组 时 通常 使 用 UCSC 基 因 组 浏览 器 和 Ensembl 
基因 组 浏览 器 。 第 四 ,序列 保守 性 的 程度 可 影响 软件 的 选用 。 在 许多 DNA 序 列 中 ,保守 区 段 
的 保守 性 介 乎 于 高 度 保守 的 外 显 子 和 完全 不 保守 的 junk DNA 之 间 ,不 易 由 常规 的 记分 机 制 
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得 以 揭示 ,而 UCSC 基 因 组 浏览 器 中 的 phastCons 和 phyloP 提 供 了 可 有 效 揭示 这 种 中 度 保守 性 
的 计算 方法 。 第 五 ,种 系 关 系 的 距离 影响 软件 的 选择 。 当 序列 间 种 系 距离 较 近 时 ,许多 软件 
会 产生 大 致 相同 的 结果 ,反之 , 当 序 列 间 种 系 距 离 较 远 时 ,不 同 软 件 产生 的 结果 可 能 会 有 相 
当 大 的 差异 ,使 用 基于 一 致 性 的 方法 可 充分 利用 序列 间 的 种 系 信息 。 另 外 ,对 于 比 对 远 距 离 
种 系 的 序列 ,对 敏感 性 和 选择 性 的 取舍 十 分 重要 。 敏 感性 关乎 识别 尽 可 能 多 的 同 源 区 段 , 选 
择 性 要 求 识别 的 同 源 区 段 都 是 真 的 ,不 同 的 软件 在 这 两 个 彼此 矛盾 的 指标 上 有 不 同 的 取舍 。 
第 六 , 比 对 种 系 关系 已 知 的 序列 时 ,可 使 用 利用 指导 树 或 种 系 树 的 算法 和 软件 , 比 对 种 系 关 
系 未 知 的 序列 时 , 则 无 法 使 用 这 样 的 软件 。 对 于 全 基因 组 序列 比 对 是 否 使 用 参照 序列 以 及 
选用 什么 序列 作为 参照 序列 ,这 取决 于 具体 序列 的 特征 (包括 序列 间距 离 的 远近 )、 对 序列 的 
了 解 (包括 对 参照 序 列 的 了 解 )、 比 对 的 目的 (是 否 主要 揭示 直系 同 源 区 段 ) 以 及 对 比 对 质量 
的 预 估 。 第 七 ,因为 不 同 算法 具有 不 同 的 时 间 和 空间 复杂 度 ,序列 的 数量 、 长 度 和 计算 机 的 
性 能 也 影响 实际 算法 和 软件 的 选用 。 
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Section 4 Analysis of DNA Sequence Characteristics 


一 基因 开放 读 码 框 的 识别 >> 


开放 读 码 框 ( Open Reading Frame, ORF ) 是 DNA 上 的 一 段 碱 基 序 列 ,包括 从 5 7 端 翻译 起 
始 密码 子 ( ATG ) 到 终止 密码 子 (TAA 、TAG TGA ) 的 编码 蛋白 质 的 碱 基 序 列 。 每 个 ORF 对 
应 一 个 潜在 的 蛋白 质 编码 区 域 。 对 于 任意 给 定 的 一 段 DNA 序 列 ,我 们 并 不 知道 DNA 双 链 中 
哪 一 条 是 编码 链 , 也 不 能 确定 其 编码 区 是 否 从 这 条 序列 的 第 一 个 碱 基 开始 所 以 每 条 链 都 有 
3 种 潜在 的 开放 读 码 框 ,一 段 双 链 DNA 序 列 在 理论 上 就 有 6 种 潜在 的 开放 读 码 框 , 即 先 以 所 给 
的 DNA 单 链 为 模板 ,分 别 从 5” —3' 方向 的 第 1 .2、3 个 碱 基 开始 翻译 ,再 以 其 互补 链 为 模板 ， 
分 别 从 3” —5' 方向 的 第 1、.2、3 个 碱 基 开 始 翻译 ,得 到 另外 3 种 翻译 结果 。 正 链 上 的 3 个 读 码 
框 称 为 “ 正 向 ”( forward ) 读 码 框 , 而 负 链 (或 互补 链 ) 上 的 读 码 框 称 为 “ 反 向 ”( reverse ASHE. 
在 6 个 潜在 的 开放 读 码 框 中 ,一 般 选 择 中 间 没 有 被 终止 密码 子 隔 开 最 大 的 那个 读 码 框 作为 正 
确 的 预测 结果 。 

原核 生物 的 基因 结构 比较 简单 , 绝 大 多 数 是 连续 基因 ,不 含 间隔 的 内 含 子 。 多 数 基 因 组 
的 编码 序列 都 在 100 个 氨基 酸 以 上 。 真 核 生 物 的 基因 结构 远 比 原核 生物 的 复杂 。 真 核 生物 
的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 区 被 内 含 子 分 隔 成 
若干 段 ,开放 读 码 框 的 长 度 变化 范围 非常 大 ,因此 真 核 生 物 基 因 结 构 的 预测 远 比 原核 生物 困 
难 。 但 是 ,在 真 核 生 物 的 开放 读 码 框 中 ,外 显 子 与 内 含 子 之 间 的 连接 在 绝 大 部 分 情况 下 满足 
GU-AG 规 律 : 内 含 子 序列 5” 端 起 始 的 两 个 核 音 酸 总 是 GU ,并 且 其 3” 端 最 后 的 两 个 核 背 酸 
总 是 AG Bl: 5' -GU ……… AG-3' ,这 个 规律 有 助 于 真 核 生物 开放 阅读 框 的 识别 。 

目前 国际 上 用 于 开放 读 码 框 的 预测 工具 有 很 多 ( 表 1-15 ), 这 些 工 具 使 用 的 预测 方法 、 
针对 的 物种 范围 和 最 终 的 结果 都 各 有 不 同 。 这 些 预测 工具 按照 预测 方法 的 不 同 主要 分 为 两 
类 : 第 一 种 方法 以 统计 学 分 析 和 模式 识别 为 基础 ( statistics-based ) 的 方法 ,从 基因 序列 本 身 
进行 预测 ,不 需要 与 大 规模 的 数据 库 进 行 比较 ,预测 速度 快 , 当 缺 少 待 分 析 物 种 的 相关 数据 
库 信 息 时 用 这 种 方法 是 比较 好 的 选择 , GENSCAN 就 是 基于 这 种 方法 建立 的 工具 ,使 用 比较 
广泛 ,预测 效率 比较 高 。 第 二 种 方法 是 以 同 源 比 对 为 基础 ( homology-based ) 的 方法 ,依赖 于 
已 知 的 数据 库 来 源 、 数 量 和 质量 ,预测 的 正确 性 比 第 一 类 高 。 以 人 发 状 分 裂 相 关 增 强 子 -5 
的 mRNA 序列 和 ORF Finder 工 具 为 例 ,其 在 GenBank 中 的 编码 为 BC087840。 从 GenBank 中 下 
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载 此 序列 并 粘贴 到 ORF Finder 指 定 的 框 内 (图 1-19 ), 点击 “OrFind” 按 钮 提交 序列 ,六 框 翻 
译 的 结果 见 图 1-20, 其 中 通常 只 有 一 条 是 可 读 框 ,一 般 很 难 随机 发 现 很 长 的 ORF, 因 而 长 的 
ORF 很 可 能 意味 着 存在 CDS。 


表 1-15 开放 读 码 框 识别 常用 相关 工具 列表 





工具 名 dct 网 址 | 研发 者 适用 范围 

ORF Finder http: //www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI 通用 

BESTORF http: //linux1.softberry.com/berry.phtml ? topic=b Softberry RE 

estorf&group-programs&subgroup-gfind 

GENSCAN http: //genes.mit.edu/GENSCAN.html MIT 次 椎 \ 拟 南 草 、 玉 米 
GlimmerM http: //cbcb.umd.edu/software/glimmer/ Maryland 原核 

Gene Finder http: //rulai.cshl.org/tools/genefinder/ Zhang! sLab A hR HARIT .酵母 
GeneMark http: //opal.biology.gatech.edu/GeneMark/ GIT 通用 


ORF Finder (Open Reading Frame 
Finder) 


Entrez BLAST OMIM Taxonomy Structure 


The ORF Finder (Open Reading Frame Finder) is a graphical 
analysis tool which finds all open reading frames of a selectable 
minimum size in a user's sequence or in a sequence already in the 
database. 

This tool identifies all open reading frames using the standard or 
alternative genetic codes. The deduced amino acid sequence can be 
saved in various formats and searched against the sequence 
database using the WWW BLAST server. The ORF Finder should be 
helpful in preparing complete and accurate sequence submissions. It 
is also packaged with the Sequin sequence submission software. 


Enter GI or ACCESSION... 
or sequence in FASTA format 


»gi|56189292|gb|BC087840. 1| Homo S| 
sapiens hairy and enhancer of split | 
|5 (Drosophila), mRNA (cDNA clone 
|MGC:102848 IMAGE:6204648), complete 
leds 
|CGCGCTTGGCCTTGCCCGCGCCCGCTCGCCTCGTC — | 
| TCGCCCGGCCTCCCCGCG TCGCCTCG TCGCCTG TT ¥ | 
(COGCGCCAGGCATGGCCCCCAGCACTGTGGCOOGTG 7 


for data mining 


FROM: |  — TO: | 


| 1 Standard u Hu — S 





Comments and suggestions to: info@ncbi.nim_nih.gov 
图 1-19 ORF Finder 的 在 线 操 作 界 面 
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c ORF Finder (Open Reading Frame 
is Tel: ]8 Finder) 





gi[56789292|gb|BC087840.1| Homo sapiens hairy and enhancer of split 5 
IMAGE:6204648), complete cds 


1 GenBank w] [9 s ieee he BE oe al 
ee 1 9259 777 519 
ee TS AS. 404.5409 
E — — — 1.. 380 380 
HW 1. 333 333 
EE es +3 810383..1520 139 
W 2.. 1399 . 138 
+1 E 82. 216 135 
+1 H1363..1476 114 
-3 @1370..1474 105 





图 1-20 ORF Finder 的 六 框 翻译 结果 


二 内 含 子 /外 显 子 剪 切 位 点 的 识别 >>> 


真 核 生 物 的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 序 
列 通常 被 内 含 子 隔 开 。 虽 然 内 含 子 的 长 度 没 有 一 定 的 规律 ,但 是 内 含 子 和 外 显 子 的 边界 
和 周围 序列 是 由 前 体 mRNA 内 的 具有 保守 性 的 一 些 特殊 核 苷 酸 序列 表明 的 ,通常 内 含 子 
5' 端 前 切 位 点 以 CU 开始 , 称 为 供 体位 点 (donor ),3” 端 剪 切 位 点 以 AG 结 束 , 称 为 受 体位 
点 (acceptor ), 还 包括 一 个 位 于 内 含 子 内 ,靠近 3 ”端的 分 支 位 点 ( 常 为 A ), 后 面 为 多 聚 喀 喧 
区 。 在 分 析 基 因 组 数据 时 ,经 常 需要 预测 基因 的 RNA 选 择 性 剪 切 方式 , 即 内 含 子 和 外 显 子 
的 位 置 和 数量 。 预 测 是 基于 RNA 剪 接 的 保守 性 序列 “GU-AG” 规则 。 根 据 这 一 特点 并 结合 
ORF, Blast 等 数据 就 可 以 对 未 知 基因 的 成 熟 mRNA 序 列 进行 预测 。 表 1-16 列 出 了 一 些 常见 
的 内 含 子 /外 显 子 剪 切 位 点 识别 工具 。 一 般 来 说 基因 组 核 音 酸 序列 的 包含 剪 切 位 点 和 内 含 
子 可 用 NetGene2 和 Splice View 等 工具 直接 预测 ; 而 对 于 mRNA/eDNA 序 列 的 分 析 , 则 需要 借助 
Spidey, SIM4, BLAT 和 BLAST 等 序列 比 对 工具 从 相应 的 基因 组 序列 推断 基因 结构 。 


表 1-16 常见 的 内 含 子 / 外 显 子 剪 切 位 点 识别 工具 
NetGene2 http: //www.cbs.dtu.dk/services/NetGene2/ CBS 人 类 线虫 、 














以 南天 
GeneSplicer http: //cbcb.umd.edu/software/GeneSplicer/ CBCB ”恶性 症 原 虫 ,人 类 、 拟 南 草 、 果 蝇 、 水 稻 
Spidey http: //www.ncbi.nlm.nih.gov/spidey/ NCBI HE Ea RE H 
GeneSeqer http: //deepc2.psi.iastate.edu/cgi-bin/gs.cgi ISU 通用 


三 、 序 列 模 体 的 查找 和 可 视 化 工具 >>> 


模 体 ( Motif ) 是 指 序列 中 局 部 的 保守 区 域 ,或 者 是 一 组 序列 中 共有 的 一 小 段 序列 模式 。 
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更 多 的 时 候 是 指 有 可 能 具有 分 子 功能 、 结 构 性 质 或 家 族 成 员 相 关 的 任何 序列 模式 。MEME 
软件 包 ( http: //meme.sdsc.edu/meme/intro.html ) 是 一 个 对 DNA 序 列 或 者 蛋白 质 序列 中 模 体 进 
行 识别 和 分 析 的 一 个 综合 性 的 工具 。 表 1-17 列 出 了 MEME 软 件 包 中 提供 的 满足 各 种 不 同 需 
要 的 工具 。 | 


表 1-17 MEME 软 件 包 中 各 种 工具 





工具 名 网 址 功能 
MEME http: /meme.nbcr.netmeme/cgi-bin/meme.cgi 模 体 识别 
GLAM2 http: //meme.nbcr.net/meme/cgi-bin/glam2.cgi 模 体 识 别 
MEME-ChIP http: //meme.nbcr.net/meme/cgi-bin/meme-chip.cgi 模 体 识别 
FIMO http: //meme.nbcr.net/meme/cgi-bin/fimo.cgi 模 体 搜索 
GLAM2SCAN http: //meme.nbcr.net/meme/cgi-bin/glam2scan.cgi 模 体 搜 索 
MAST http: //meme.nbcer.net/meme/cgi-bin/mast.cgi 模 体 搜 索 
SPAMO http: //meme.nbcr.net/meme/cgi-bin/spamo.cgi 模 体 间距 分 析 
MCAST http: //meme.nbcr.net/meme/cgi-bin/mcast.cgi Ti eie 18 
TOMTOM http: //meme.nbcr.net/meme/cgi-bin/tomtom.cgi 模 体 比较 
GOMO http: //meme.nbcr.net/meme/cgi-bin/gomo.cgi 模 体 功 能 分 析 


四 、 密 码 子 使 用 模式 的 分 析 5 


由 于 密码 子 简 并 性 的 存在 ,每 个 氨基 酸 至 少 对 应 一 种 密码 子 , 最 多 有 6 种 对 应 的 密码 子 。 
编码 同一 种 氨基 酸 的 密码 子 称 为 同 义 密码 子 。 不 同 物种 、 不 同 基因 在 密码 子 使 用 上 都 存在 
着 很 大 的 差异 。 各 种 生物 体 似乎 更 偏爱 使 用 某 些 同 义 三 联 密码 子 。 例 如 , 某 一 物种 或 基因 
通常 倾向 于 使 用 一 种 或 者 几 种 特定 的 同 义 密码 子 ,这 些 密码 子 被 称 为 最 优 密码 子 , 此 现象 被 
称 为 密码 子 使 用 偏好 性 。 密 码 子 使 用 偏好 性 的 产生 与 基因 的 表达 水 平 、 翻 译 起 始 效应 .基因 
的 碱 基 组 成 .GCC 含量 .基因 长 度 , tRNA 的 丰 度 等 很 多 因素 相关 。 密 码 子 分 析 常 用 软件 和 常 
用 网 站 见 表 1-18 和 表 1-19。 


表 1-18 密码 子 使 用 偏好 性 分 析 常 用 软件 





软件 网 址 操作 系统 
CodonW http: //sourceforge.net/projects/codonw/ Dos, unix, windows 
SYCO http: //emboss.sourceforge.net/apps/cvs/emboss/apps/syco.html Unix, linux 
CHIPS http: //www.cbib.u-bordeaux2.fr/pise/chips.html Unix, linux 
CUSP http: //emboss.sourceforge.net/apps/evs/emboss/apps/cusp.html Unix, linux 
CodonPreference http: //odin.mdacc.tme.edu/gcg/unix/codonpreference.html Unix, linux 
CodonFrequency http: //bioinfo.ekmd.huji.ac.il/gcgl Imanual/codonfrequency.htm] Unix, linux 
Correspond http: //bioinfo.ekmd.huji.ac.il/gcgl lImanual/correspond.html Unix, linux 


Countcodon http: //www.kazusa.or.jp/codon/countcodon.html Web 
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X1-19 密码 子 使 用 偏好 性 分 析 常 用 网 站 








ftp: //ftp.kazusa.or.jp/pub/codon/current/ CUTG, 密码 子 使 用 频 度 表 。 由 GenBank 中 的 DNA 序列 
ftp: //ftp.ebi.ac.uk/pub/databases/cutg/ 统计 出 来 的 密码 子 使 用 频 度 表 ( Codon Usage Tabulate from 


ftp: //ftp.nig.ac.jp/pub/db/codon/current/ GenBank ), 按 物种 和 模式 生物 给 出 。 把 蛋白 质 氨 基 酸 序列 倒 
翻译 为 核 苷 酸 序列 时 ,应 参考 此 表 


http: //www.kazusa.or.jp/codon/ CUTG ( Codon Usage Tabulated from GenBank ) 的 网 络 扩展 版 ， 
可 以 查询 不 同 物种 的 密码 子 使 用 表 

http: //gcua.schoedl.de/ 以 图 形 的 方式 表现 密码 子 偏好 性 

http: //bioinformatics.org/codon/cgi-bin/ ¥ Codon Usage Database 中 的 所 关心 物种 的 密码 子 表 ,经 处 理 

codon.cgi 转化 为 可 读 性 更 强 的 图 表 形 式 


http: //www-faculty.ucr.edu/~mmaduro/ — 'XJ-T- 1E E.coli 中 异 源 蛋 白 的 表达 效率 给 出 了 很 好 的 建议 


codonusage/usage.htm 


注 : 来 源 于 吴 宪 明 , 匡 松 峰 , 任 大 明 , 等 .密码 子 偏 性 的 分 析 方 法 及 相关 研究 进展 .遗传 .2007 ; 29( 4 ): 420-426, 


五 限制 性 核酸 内 切 酶 位 点 分 析 >> 


限制 性 核酸 内 切 酶 (以 下 简称 限制 性 酶 ) 是 一 类 识别 双 链 DNA 中 特定 核 昔 酸 序列 的 DNA 
水 解 酶 ,以 内 切 方式 水 解 DNA ,产生 5”-P 和 3” -OH 末端 。 限 制 性 酶 的 识别 序列 ,大 部 分 具有 
双 轴 对 称 性 结构 或 称 回 文 序列 ,具有 一 定 的 保守 性 ,利用 这 一 特性 可 以 识别 基因 序列 中 的 限 
制 性 核酸 内 切 酶 位 点 。 表 1-20 列 出 了 常用 的 限制 性 核酸 内 切 酶 位 点 分 析 工 具 。 

Vector NTI 软 件 输入 文件 格式 广泛 ,除了 molecule documents ( .gb ) 是 该 公司 本 身 文件 格 
式 外 ,还 能 识别 各 种 数据 库 应 用 格式 软件 : EMBL, GenBank, FASTA, Sequence files。 可 以 查 
找 特定 序列 、ORF( 可 以 设置 相关 参数 ) 描 述 载体 限制 酶 位 点 一些 功 能 序列 和 附注 。 整 个 
界面 由 文本 、 图 形 和 序列 三 部 分 构成 ,而 且 点 击 任意 的 序列 、RE、 基 因 、 图 形 和 序列 均 会 自动 
标记 到 相应 位 置 ,非常 直观 方便 。 载 体 可 以 圆 形 表示 也 可 以 线形 表示 。 还 可 进行 核酸 到 和 蛋 





白 的 翻译 等 功能 。 
表 1-20 常用 的 限制 性 核酸 内 切 酶 位 点 分 析 工 具 
工具 un 网 址 \ 备注 
Vector NTI http: //register.informaxinc.com/solutions/vectornti/index.html Windows 
Webcutter http: //bio.lundberg.gu.se/cutter2/ * Web 
Watcut http: //watcut.uwaterloo.ca/watcut/watcut/template.php Web 
NEBcutter http: //tools.neb.com/NEBcutter2/index.php Web 
BioEdit http: //www.mbio.ncsu.edu/BioEdit/bioedit.html Windows 
DNAMAN http: //www.lynnon.com/ Windows 


RestrictionMapper http: //www.restrictionmapper.org/ Web 
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六 、 重 复 序列 的 查找 >> 


重复 序列 ( repetitive sequence ) 是 指 真 核 生物 染色 体 基因 组 中 重复 出 现 的 核 并 酸 序列 。 
这 些 序列 一 般 不 编码 多 肽 ,其 组 织 形式 有 两 种 : 串联 重复 序列 ; 分 散 重 复 序列 。 前 一 种 成 徐 
存在 于 染色 体 的 特定 区 域 ,后 一 种 分 散 于 染色 体 的 各 位 点 上 。 重 复 DNA 序 列 是 多 数 真 核 生 
物 基因 组 的 主要 成 分 ,可 以 分 为 三 个 主要 类 型 : 低 重 复 序列 .中 度 重 复 序 列 和 高 度 重复 序列 。 
重复 序列 中 往往 GC 含量 低 , AT 含量 高 ,3” 端 和 5 7” 端 有 直接 重复 序列 的 存在 。 有 利于 形成 环 
状 结构 。 对 这 些 重复 序列 的 定位 能 为 基因 定位 提供 重要 的 反 向 信息 ,同时 重复 序列 还 常会 
干扰 序列 其 他 特性 分 析 。 表 1-21 列 出 了 常见 的 重复 序列 查找 工具 。 

表 1-21 常见 的 重复 序列 查找 工具 


工具 网 址 GU WES 
REPFIND http: //zlab.bu.edu/repfind/ Web 


RepeatMasker http: //www.repeatmasker.org/ Web, linux 
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Section5 Analysis of Protein Sequence Characteristics 
一 、 蛋 白质 的 理化 性 质 分 析 >> 


蛋白 质 理化 性 质 是 蛋白 质 研究 的 基础 ,对 组 成 蛋白 质 的 氨基 酸 进 行 理化 性 质 的 统计 分 
析 是 对 未 知 蛋 白质 进行 分 析 的 基础 。 蛋 白质 的 理化 性 质 包 括 相 对 分 子 质量 .氨基酸 组 成 、 等 
电 点 ,消光 系数 .半衰期 .不 稳定 系数 和 总 平均 亲 水 性 等 。 传 统 的 理化 性 质 分 析 方 法 如 相对 
分 子 质量 的 测定 、 等 电 点 实验 和 沉降 实验 等 十 分 费时 和 耗资 。 基 于 实验 经 验 值 的 计算 机 分 
析 方 法 为 蛋白 质 的 理化 性 质 分 析 提 供 了 一 个 便捷 的 途径 。 表 1-22 列 出 了 一 些 常 用 的 蛋白 质 
理化 性 质 分 析 工 具 。 


表 1-22 蛋白 质 理化 性 质 常 用 分 析 工 具 


工具 网 址 备注 
ProtParam http: //us.expasy.org/tools/protparam.html Web 
ProtScale http: //ca.expasy.org/tools/protscale.html Web 
Compute pl. MW www.expasy.ch/tools/ Web 
TGREASE ftp: //ftp.virginia.edu/pub/fasta/ Windows 
SAPS www. isrec.isb-sib.ch/software/SAPS_form.html Web 


ExPASy( expert protein analysis system ) 是 由 瑞士 生物 信息 学 中 心 维护 ,并 与 欧洲 生物 信 
息 学 中 心 (EBI) 及 蛋白质 信 息 资源 (protein in formation resource, PIR ) 组 成 Universal Protein 
Knowledgebase( Uniprot ) 联盟 。ExPASy 数 据 库 提供 了 一 系列 蛋白 质 理化 分 析 工 具 , 以 便于 检 
索 未 知 蛋 白质 的 理化 性 质 , 并 基于 这 些 理化 性 质 鉴别 未 知 蛋 白质 的 类 别 , 为 后 续 实 验 提供 帮 
助 。 其 中 ProtParam( physico-chemical parameters of a protein sequence ) 就 是 计算 氨基 酸 理化 参数 
常用 的 在 线 工具 ,其 网 址 为 http: //expasy.org/tools/protparam.html , ProtParam 提 供 的 理化 性 质 主要 
包括 氨基 酸 残 基数 ( number of amino acids )、 分 子 质量 ( molecular weight )、. 理 论 等 电 点 ( theoretical 
pl ), AHE WA 7H IX ( amino acid composition ), fA HE fay 2 BE WR HK JE A ALC total number of negatively 
charged residues ) 正 电荷 氨基 酸 残 基 总 数 ( total number of positively charged residues ) JA THIR 
( atomic composition ) 分子式 (formula ), 原子 总 数 (total number of atoms )、 消 光 系 数 ( extinction 
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coefficients )、 半 豪 期 (estimated half-life )、 不 稳定 系数 (instability index )、 脂 肪 系数 (aliphatic 
index )、 总 平均 玖 水 性 ( grand average of hydropathicity ) 等 物理 和 化 学 参数 。ExPASy 的 ProtScale 
程序 是 计算 蛋白 质 亲 朴 水 性 分 析 的 在 线 工 具 , 其 网 址 为 http: //expasy.org/tools/protscale.html, 用 
于 计算 氨基 酸 标 度 ( amino acid scale )。 氨 基 酸 标 度 表示 氨基 酸 在 某 种 实验 状态 下 相对 其 他 氮 
基 酸 在 某 些 性 质 的 差异 ,如 朴 水 性 ` 亲 水 性 等 。ProtScale 程 序 收集 了 50 多 个 文献 中 提供 的 氨基 
酸 标 度 ,默认 值 为 Hphob.Kyte & Doolittle ,做 疏水 性 分 析 , 可 以 对 一 些 处 于 和 蛋白质 分 子 表面 的 搞 
原 决定 簇 及 一 些 膜 蛋 白 中 穿越 膜 的 肽 段 进行 预测 。 以 人 发 状 分 裂 相 关 增 强 子 -5 的 和 蛋白质 为 
例 , 其 在 GenBank 中 的 编码 为 Q5TA89。 从 GenBank 中 下 载 此 序列 并 粘贴 到 ProtParam 指 定 的 框 内 
见 图 1-21 ,点 击 Compute parameters 按 钮 提交 序列 ,蛋白 质 序列 的 理化 性 质 分 析 结 果 见 图 1-22。 


Eu Yo» m .... ProtParam eee Pier 


ProtParam tool 





ProtParam (References Documenation)i 1S à tool which allows the c Compton 1 of various physical and chemical parameters for a given protein stored in Wess: Prot or TrEMBL or for a user 
entered sequence The computed parameters include the molecular weight, theoretical pl, amino acid composition, atomic composition, extinction coefficient. estimated half-life, instability 
index, aliphatic index and grand average of hydropathicity (GRAVY) (Disctaimer) 


Please note that you may only fill out one of the following fields at a time 
Enter a Swiss-Prot/ TrEMBL accession number (AC) (for example P05130) or a sequence identifier (ID) (for example KPC1, DROME) 


Or you can paste your own sequence in the box below - 


Sgi | 14745795 | sp |Q51489. 1 |HESS_HUMAN Reclame: 
Pull-Transcription factor HES-5. AltName: Full-Class B basic 
helix-loop-helix protein 38: Short=bHLHb38: AltName: 


|MAPSTVAVELLSPKEKNRLRKPVVEKMRKDRINSSIEQLKLLLEQEF AKHQPNSKLEK ADIL. 
EMAVSTLKHSKAFVAAAGPKSLHQDYSEGYSWCLQEAVQFL TLHAASDTQMKLL YHFQRPP A. 
APAAPAKEPKAPG AAPPP ALSAKATAAAAAAHQP ACGLVKPV. 


RESET) [Compute parameters 


图 1-21 ProtParam 的 在 线 操作 界面 


Carbon C 818 
Hydrogen H 1299 
Nitrogen N 231 
Oxygen 0 229 
Sulfur 3 6 


Formula: Ca18H;299N231022955 
Total number of atoms: 2582 


Extinction coefficients: 

Extinction coefficients are in units of M? cn !, at 280 nm measured in water. 
Ext. coefficient 22585 

Abs 0.1% (=1 g/1) 1.239, assuming all pairs of Cys residues form cystines 
Ext. coefficient 22460 

Abs 0.1% (=1 2/1) 1.232, assuming all Cys residues are reduced 

Estimated half-life: 

The N-terminal of the sequence considered is M (Met). 

The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro). 


>20 hours (yeast, in vivo). 
^10 hours (Escherichia coli, in vivo). 


Instability index: 


The instability index (II) is computed to be 56.31 
This classifies the protein as unstable. 


Aliphatic index: 79.64 


图 1-22 ”ProtParam 分 析 有 蛋白 质 序列 理化 性 质 的 部 分 结果 
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二 、 蛋 白质 的 跨 膜 结构 分 析 >>> 


生物 膜 所 含 的 蛋白 质 叫 膜 蛋白 ,是 生物 膜 功 能 的 主要 承担 者 。 根 据 蛋 白质 分 离 的 难 易 
及 在 膜 中 分 布 的 位 置 , 膜 蛋白 基本 可 分 为 两 大 类 : 外 在 膜 蛋 白 和 内 在 膜 蛋 白 。 外 在 膜 蛋 白 约 
占 膜 蛋白 的 20%~30% , 分布 在 膜 的 内 外 表面 ,主要 在 内 表面 ,为 水 溶性 蛋白 质 , 它 通过 离子 
键 、 氧 键 与 膜 脂 分 子 的 极 性 头 部 相 结合 ,或 通过 与 内 在 蛋白 的 相互 作用 间接 与 膜 结合 ; 内 在 
蛋白 约 占 膜 蛋 白 的 70%~80% ,是 双亲 媒 性 分 子 , 可 不 同 程度 的 谍 和 人 脂 双 层 分 子 中 。 有 的 贯 
穿 整个 脂 双 层 ,两 端 暴露 于 膜 的 内 外 表面 ,这 种 类 型 的 膜 蛋白 又 称 跨 膜 蛋白 。 内 在 膜 蛋 白露 
出 膜 外 的 部 分 含 较 多 的 极 性 氨基 酸 , 属 亲 水 性 ,与 磷脂 分 子 的 杂 水 头 部 邻近 ; RAT UR VI 
部 的 膜 蛋白 由 一 些 非 极 性 的 氨基 酸 组 成 ,与 脂 质 分 子 的 疏水 尾部 相互 结合 ,因此 与 膜 结合 非 
常 紧 密 。 含 有 路 膜 区 的 蛋白 质 往往 和 细胞 的 功能 状态 密切 相关 。 表 1-23 列 出 了 跨 膜 结构 分 
析 常 用 的 工具 。 


表 1-23 ”蛋白质 跨 膜 结构 分 析 常 用 的 工具 


工具 网 址 备注 
Tmpred http: //www.ch.embnet.org/software/TMPRED form.html Web 
TMHMM http: //www.cbs.dtu.dk/services/TMHMM/ Web 
PSORT ` http: //psort.hgc.jp/form.html Web 
DAS http: //www.sbe.su.se/~miklos/DAS/ Web 
SPLIT http: //split.pmfst.hr/split/ Web 
PRED-TMR http: //athina.biol.uoa.gr/PRED-TMR/ Web 


TMpred 是 EMBnet 开 发 的 分 析 蛋 白质 跨 膜 区 的 在 线 工具 ,其 网 址 为 http: //www. 
ch.embnet.org/software/TMPRED_form.html 。TMpred 基 于 对 TMbase 数 据 库 的 统计 分 析 来 
预测 蛋白 质 跨 膜 区 和 跨 膜 方向 。TMbase 来 源 于 Swiss-Prot 库 ,并 包含 了 每 个 序列 的 一 些 
附加 信息 ,如 : 跨 膜 结构 区 域 的 数量 、 跨 膜 结构 域 的 位 置 及 其 侧 沟 序列 的 情况 。Tmpred 利 
用 这 些 信息 并 与 若干 加 权 和 矩阵 结合 进行 预测 。 用 户 将 一 个 蛋白 质 序列 输入 查询 序列 文本 
框 , 并 可 以 指定 预测 时 采用 的 跨 膜 螺旋 玻 水 区 的 最 小 长 度 和 最 大 长 度 。 输 出 结果 包含 四 
个 部 分 : 可 能 的 跨 膜 螺旋 区 、 相 关 性 列表 、 建 议 的 跨 膜 拓扑 模型 以 及 表示 相同 结果 的 图 。 
以 G 和 蛋白 偶 联 受 体 蛋 白质 序列 为 例 ,其 在 GenBank 中 的 编号 为 P51684。 将 “P51684” 输 
入 到 TMpred 的 查询 序列 文本 框 中 ,输入 序列 格式 选择 “SwissProt ID or AC” 见 图 1-23, 按 
“Run TMpred" 按钮 ,可 得 到 TMpred 对 P51684 序 列 的 分 析 结 果 。 图 1-24 到 图 1-27 显 示 了 用 
TMpred 分 析 P51684 序 列 得 到 的 7 个 可 能 的 跨 膜 螺旋 区 、7 个 跨 膜 螺旋 区 的 相关 性 列表 、 建 议 
的 跨 膜 拓扑 模型 和 图 形 显示 结果 。 
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h. EMBnet. org 


TMpred - - Prediction of Transmembrane Wowie 
and Orientation 


The TMpred program ms a prediction of era spanning regions and their 
orientation. The algorithm is based on the statistical analysis of TMbase, a database 
of naturally occuring transmembrane proteins. The prediction is made using a 
combination of several weight-matrices for scoring. 





` 


K. Hofmann & W. Stoffel (1993) 
TMbase - A database of membrane spanning proteins segments 
Biol. Chem. Hoppe-Seyler 374,166 


For further information see the TMbase and TMpredict documentation. 





Usage: Paste your sequence in one of the supported formats into the sequence 
field below 

and press the "Run TMpred" button. 

Make sure that the format button (next to the sequence field) shows the 
correct format 

Choose the minimal and maximal length of the hydrophic part of the 
transmembrane helix 





eam ; : Bus SE "EE A p: E 
f EMEN 
(optional) — = 
Anput emat SwesPra ID or AC p SwissPro SwissProt tIDorAC — a 


Query sequence: P51684 
or ID or AC or GI. 

(see above for | 

valid formats) 


图 1-23 TMpred 的 在 线 操作 界面 














1.) Possible transmembrane helices 


The sequence positions in brackets denominate the core region. 
Only scores above 500 are considered significant. 


Inside to outside helices : T found 
from to score center 
47 ( 51) 69 ( 69) 2494 61 
83 ( 86) 104 ( 104) 1914 94 
123 ( 123) 141 ( 139) 1352 131 
166 ( 168) 184 ( 184) 2170 176 
219 ( 219) 236 ( 236) 2453 227 
255 ( 255) 276 ( 273) 2140 265 
300 ( 300) 319 ( 319) 915 309 


Outside to inside helices : T found 

from to Score center 

66:56 55) 74 Cie T1). 6: :270T 63 
84 ( 86) 104 ( 104) 1470 94 
120 ( 123) 141 ( 139) 1451 131 
166 ( 166) 185 ( 185) 1934 176 
212 (214) 236 ( 232) 2530 224 
252 ( 258) 274 ( 274) 1386 266 
299 ( 299) 319 ( 319) 1299 309 


图 1-24 用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 
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2.) Table of correspondences 


Here is shown, which of the inside->outside helices correspond to which of the outside—> inside helices. 


Helices shown in brackets are considered insignificant. 
A “+”-symbol indicates a preference of this orientation. 
A “++”-symbol indicates a strong preference of this orientation. 


inside->out side 


| outside->inside 
4T- 69 (23) 2494 |  55- 74 (20) 2707 + 
83- 104 (22) 1914 + | 84- 104 (21) 1470 
123- 141 (19) 1352 | 120- 141 (22) 1451 + 
166- 184 (19) 2170 ++ |  166- 185 (20) 1934 
219- 236 (18) 2453 | 212- 235 (24) 2530 
255- 276 (22) 2140 ++ |  252- 274 (23) 1386 
300- 319 (20) 915 |- 299- 319 (21) 1299 ++ 


图 1-25 用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 相关 性 列表 


3.) Suggested models for transmembrane topology 


These suggestions are purely speculative and should be used with extreme caution since they are based on the assumption that all transmembrane helices have been 
found. 


In most cases, the Correspondence Table shown above or the prediction plot that is also created should be used for the topology assignment of unknown proteins. 


2 possible models considered, only significant Ti-segments used 


-一 一 〉》 STRONGLY prefered model: N-terminus outside 
7 strong transmembrane helices, total score : 14211 
€ from to length score orientation 


1 
2 


28 


74 (20) 
104 (22) 
3 120 141 (22) 
4 166 184 (19) 
5 212 236 (20) 
6 265 276 (22) 
7 299 319 (21) 





> alternati’ 


2107 oi 
1914 i-o 


2140 i-o 
1299 oni 


ve model 


7 strong transmembrane helices, total score : 12004 
# from to length score orientation 


1 47 69 (23) 
84 104 (21) 
123 141 (19) 
166 185 (20) 
219 236 (18) 
252 274 (23) 
300 319 (20) 


onaAun 


2494 i-o 
1470 oi 
1382 i-o 
1934 o-i 
2453 i-o 
1386 o-i 
915 i-o 


图 1-26 


图 1-27 


用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 跨 膜 拓扑 模型 






0 50 


TMpred output for P51684 


100 150 200 250 300 350 400 


用 TMpred 分 析 P51684 序 列 所 得 到 的 7 个 可 能 跨 膜 螺旋 区 的 图 形 显示 结果 
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三 、 蛋 白质 信号 肽 的 预测 和 识别 >>. 


信号 肽 ( signal peptide ) 是 指 新 合成 多 肽 链 中 用 于 指导 蛋白 质 跨 膜 转移 的 末端 (通常 为 
N 末 端 ) 氨基 酸 序 列 。 信 和 号 肽 在 蛋白 分 泌 的 过 程 中 起 重要 作用 ,分 记性 蛋白 质 合 成 后 由 信和 号 
肽 引导 其 穿 过 合成 所 在 的 细胞 到 其 他 组 织 细胞 中 。 信 和 号 肽 中 至 少 含有 一 个 带 正 电荷 的 氨基 
酸 ,中 部 有 一 个 高 度 疏 水 区 以 通过 细胞 膜 。 信 号 肽 假说 认为 ,编码 分 泌 和 蛋白 的 mRNA 在 翻译 
时 首先 合成 的 是 N 末 端 带 有 踢 水 氨基 酸 残 基 的 信和 号 肽 , 它 被 内 质 网 膜 上 的 受 体 识别 并 与 之 
结合 。 信 号 肽 经 膜 中 和 蛋白质 形 成 的 孔道 到 达 内 质 网 内 腔 , 并 随机 被 位 于 腔 表面 的 信号 肽 酶 
水 解 ,由 于 它 的 引导 ,新 生 的 多 肽 就 能 够 通过 内 质 网 膜 进 入 腔 内 ,最 终 被 分 泌 到 胞 外 。 信 号 
肽 的 识别 有 助 于 蛋白 质 功 能 域 的 区 分 及 蛋白 质 细胞 定位 。 

前 导 肽 ( leader peptide ) 是 信号 肽 的 一 种 。 在 线粒体 蛋白 质 的 跨 膜 转运 过 程 中 ,通过 线 
粒 体 膜 的 蛋白 质 在 转运 之 前 大 多 数 以 前 体形 式 存 在 , 它 由 成 熟 蛋白 质 和 N 端 延伸 出 的 一 段 
前 导 肽 共同 组 成 。 迄 今 已 有 40 多 种 线粒体 蛋白 质 前 导 肽 的 一 级 结构 被 前 明 ,它们 约 含 20~80 
个 氨基 酸 残 基 , 当前 体 蛋 白 跨 膜 时 ,前导 肽 被 一 种 或 两 种 多 肽 酶 水 解 转变 为 成 熟 蛋白 质 , 同 
时 失去 继续 跨 膜 的 能 力 。 前 导 肽 一 般 具 有 以 下 特性 : 中 带 正 电荷 的 碱 性 氨基 酸 (特别 是 精 氮 
酸 ) 含 量 较为 丰富 ,它们 分 散 于 不 带电 荷 的 氨基 酸 序列 之 间 ; @ 缺 失 带 负 电荷 的 酸性 氨基 酸 ; 
@ 羟 基 氮 基 酸 (特别 是 丝氨酸 ) 含 量 较 高 ; 外 有 形成 两 亲 ( 既 有 亲 水 又 有 玻 水 部 分 ) a -螺旋 
结构 的 能 力 。 

可 以 利用 因特网 在 线 工 具 和 信和 号 序列 捕获 系统 来 判定 基因 序列 中 是 否 含有 信和 号 肽 序 
列 。SignalP 是 丹麦 科技 大 学 生物 序列 分 析 中 心 开 发 的 信号 肽 及 其 剪 切 位 点 检测 在 线 工 具 ， 
其 网 址 为 http: //genome.cbs.dtu.dk/services/SignalP/。 该 软件 基于 神经 网 络 方法 ,用 已 知 信号 
序列 的 革 兰 阴性 原核 生物 、 革 兰 阳 性 原核 生物 及 真 核 生 物 的 序列 作为 训练 集 。SignalP 预 测 
的 是 分 泌 型 信号 肽 ,而 不 是 参与 细胞 内 信和 号 传递 的 蛋白 质 。 


四 、 蛋 白质 的 卷曲 螺旋 预测 >> 


卷曲 螺旋 是 通过 其 朴 水 性 界面 相互 缠绕 在 一 起 形成 的 一 个 十 分 稳定 的 结构 ,是 控制 重 
白质 守 聚 化 的 元 件 , 它 存在 与 很 多 蛋白 质 中 ,例如 转录 因子 ,病毒 融合 蛋白 多 肽 等 ,在 中 间 纤 
维 中 也 有 很 长 的 这 样 的 元 件 。 

卷曲 螺旋 ( coiled-coil ) 是 存在 于 多 种 天 然 蛋 白质 中 的 一 类 由 两 股 或 者 两 股 以 上 a 螺旋 
相互 缠绕 而 形成 的 平行 或 反 平 行 左手 超 螺 旋 结构 的 总 称 。 卷 曲 螺 旋 区 域 一 般 以 7 个 氨基 酸 
残 基 为 单位 组 成 ,以 a、b、c、d、e、f、 g 位 置 表示 ,其 中 a 和 d 位 置 为 玖 水 性 氨基 酸 ,其 他 位 置 的 
氨基 酸 残 基 为 亲 水 性 。 卷 曲 螺旋 是 控制 蛋白 质 寡 聚 化 的 元 件 , 它 存在 与 很 多 蛋白 质 中 ,许多 
含有 卷曲 螺旋 结构 的 蛋白 质 具 有 重要 的 生物 学 功能 ,例如 基因 表达 调控 中 的 转录 因子 ,病毒 
融合 蛋白 多 肽 等 等 ,在 中 间 纤 维 中 也 有 很 长 的 这 样 的 元 件 。 表 1-24 列 出 了 常用 的 蛋白 质 卷 
曲 螺旋 预测 工具 。 

COILS 是 由 Swiss EMBNet 维 护 的 预测 卷曲 螺旋 的 在 线 工 具 ,其 网 址 为 http: //www. 
ch.embnet.org/software/COILS_form.html。 该 软件 基于 Lupas 算 法 ,在 一 个 包含 已 知 卷曲 螺旋 和 蛋 
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白 结 构 的 数据 库 中 对 查询 序列 进行 搜索 ,同时 也 将 查询 序列 与 包含 球状 蛋白 序列 的 PDB 次 
级 库 进行 比较 ,并 根据 两 个 库 搜索 得 分 决定 查询 序列 形成 卷曲 螺旋 的 概率 。COILS 也 可 以 下 








载 到 本 地 进行 运算 。 
表 1-24 常用 的 蛋白 质 卷 曲 螺旋 预测 工具 
IS CUBES 网 址 ES 
Coiled—coil http: //www.york.ac.uk/biology/units/coils/coilcoil.html Mac 
COILS http: //www.ch.embnet.org/software/COILS_form.html Web 
Epitopelnfo http: //epitope-informatics.com/Links.htm Web 


五 、 糖 基 化 位 点 的 预测 与 识别 》》 


糖 基 化 是 真 核 细胞 中 最 常见 的 翻译 后 蛋白 质 修 饰 过 程 之 一 ,在 生物 学 过 程 中 扮演 着 重 
要 的 角色 , 它 能 参与 免疫 防御 病毒 复制 .细胞 生长 等 过 程 。 蛋白质 的 糖 基 化 有 N- 糖 基 化 、0- 
糖 基 化 、C- 甘 露 糖 糖 基 化 以 及 糖 基 脂 酰 肌 醇 ( GPI ) 锚 区 四 种 类 型 。 其 中 0- 糖 基 化 参与 很 多 
细胞 生化 过 程 ,诸如 细胞 条 附 、 细 胞 免疫 、 精 卵 结合 、 血 液 凝固 以 及 微生物 对 细胞 的 黏附 等 。 
0- 糖 基 化 可 调节 细胞 表面 受 体 的 表达 和 功能 ,从 而 影响 生物 细胞 的 生长 和 凋 亡 、 胚 胎 发 生 
等 重要 生命 过 程 。 但 是 0- 糖 基 化 位 点 的 确切 序列 片段 还 不 清楚 ,还 未 发 现 固 定 的 模式 ,但 
是 许多 基于 实验 和 计算 的 方法 已 经 被 应 用 在 寻找 糖 基 化 和 序列 间 的 一 致 性 。 

NetOGlyc 是 由 丹麦 技术 大 学 的 生物 序列 分 析 中 心 维护 的 预测 糖 基 化 位 点 的 在 线 工 具 ， 
其 网 址 为 http: /www.cbs.dtu.dk/services/NetOGlyc/。NetOGlyc 预 测 哺乳 动物 蛋白 质 中 的 糖 基 
化 位 点 ,通过 神经 网 络 系统 对 序列 进行 分 析 , 最 后 得 到 一 个 阅 值 分 布 和 相应 位 点 的 得 分 ,可 
以 批量 提交 ,也 可 以 提交 fasta 格 式 的 序列 或 者 序列 文件 。 


六 、 磷 酸化 位 点 的 预测 与 识别 >> 


磷酸 化 是 蛋白 质 重要 的 翻译 后 修饰 之 一 ,也 是 细胞 调控 的 重要 形式 之 一 ,磷酸 化 会 影响 
到 很 多 的 细胞 信号 通路 ,包括 代谢 .生长 分 化 和 膜 运 输 等 。 由 于 磷酸 化 的 重要 性 ,磷酸 化 位 
点 的 理论 识别 成 为 计算 生物 学 的 重要 研究 内 容 。 磷 酸化 位 点 附近 存在 保守 残 基 片 段 , 而 这 
种 保守 性 又 与 激酶 类 型 相关 。 表 1-25 列 出 了 常用 磷酸 化 位 点 的 预测 与 识别 工具 。 


表 1-25 常用 的 磷酸 化 位 点 的 预测 与 识别 工具 





工具 网 址 备注 
KinasePhos http: //kinasephos.mbe.nctu.edu.tw/ Web 
GPS http: //gps.biocuckoo.org/ Windows, Linux, Unix, Mac OS 
pkaPS http: //mendel.imp.ac.at/sat/pkaPS/ Web 


NetPhos http: //www.cbs.dtu.dk/services/NetPhos/ Web 
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真 核 生 物 的 基因 一 般 为 断裂 基因 ( interrupted gene ), 由 内 含 子 和 外 显 子 组 成 ,编码 序列 
通常 被 内 含 子 隔 开 。 虽 然 基 因 的 结构 式 断 裂 的 ,但 是 mRNA 的 结构 去 不 是 断裂 的 。 基 因 的 
初始 转录 物 与 基因 的 结构 相同 ,经 过 mRNA 前 接 从 mRNA 前 体 中 去 除 内 含 子 得 到 信使 nRNA。 
而 对 同一 个 mRNA 前 体 ,通过 不 同 的 剪接 方式 产生 了 不 同 的 mRNA 选择 性 剪接 变 体 ,使 一 个 
基因 在 不 同时 间 不 同 环境 中 能 制造 出 不 同 的 和 蛋白质, RNA 的 选择 性 前 切 时 高 等 真 核 生物 基 
因 中 普遍 存在 的 一 种 生命 现象 , 它 在 真 核 基因 表达 调控 中 起 着 十 分 重要 的 作用 。 本 节 我 们 
用 实例 介绍 如 何 让 利用 NCBI 的 Spidey 工 具 分 析 mRNA 或 者 cDNA 的 外 显 子 组 成 以 及 基因 的 选 
择 性 剪 切 分 析 。 


一 、 利 用 Spidey 工 具 识 别 mRNA/cDNA 的 外 显 子 组 成 》》 


图 1-28 是 Spidey 工 具 的 序列 在 线 提交 页 面 , 在 主 界面 中 有 两 个 窗口 ,上方 窗 口 用 于 输入 
基因 组 序列 (直接 粘贴 序列 或 者 用 GenBank 号 ); 下 方 窗口 用 于 输入 mRNA/cDNA 序 列 (直接 
粘贴 序列 或 者 用 GenBank 号 ), 可 同时 输入 多 条 mRNA/eDNA 序 列 与 同一 条 基因 组 序列 进行 
分 析 。“divergent seduences” 人 参数 用 于 判断 分 析 的 序列 间 的 差异 “Use large intron sizes" & 





数 表示 是 否 接受 默认 的 内 含 子 长 度 限 制 ,默认 的 内 部 内 含 子 为 33kb, 未 端 内 含 子 为 100kb; 


“Genomic seduence ”参数 用 于 判断 序列 的 物种 "Out options” 人 参数 用 于 选择 结果 输出 的 格式 。 

人 类 的 FXYD5 是 一 个 重要 的 铁 离子 转运 调节 体 , 为 了 了 解 FXYD5 的 mRNA 的 外 显 子 组 
成 ,我 们 在 NCBI 的 GenBank 数 据 库 中 检索 到 FXYD5 的 一 条 mRNA 的 记录 号 NM_014164, 以 
及 该 基因 所 对 应 的 基因 组 片段 记录 号 AC002390, 我 们 将 AC002390 填 在 上 方 的 输入 界面 ， 
NM_014164 填 入 下 方 的 输入 界面 ,“Genomic sequence is” 参 数 选 择 “Vertebrate”, HARB AGE 
择 默认 ,然后 点 击 “Align” 开 始 分 析 , 最 后 的 结果 以 图 形 化 的 方式 返回 (图 1-29 )。 结 果 显 示 
FXYD5 基 因 记 录 号 为 NM_014164 的 mRNA 由 9 个 外 显 子 组 成 ,结果 详细 给 出 了 mRNA 的 每 个 
外 显 子 在 基因 组 中 对 应 位 置 和 长 度 。 同 时 Spidey 工 具 在 图 形 化 结果 的 下 方 还 给 出 了 具体 的 
序列 比 对 的 信息 (图 1-30 )。 
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mRNA sequence(s) (One or more FASTA or 
Gl/Accession): 


Upload file: [选择 文件 ] 未 选择 文件 


P 


图 1_-28 Spidey 工 具 的 序列 在 线 提交 页 面 


ET mmm mr rm nen 1517 


Genomic mRNA 
coordinates coordinates 


Donor Acc. 
site site 


length identity  mismatches gaps 





2 1399-1459 89-149 61 100. 0% 0 0 d a 








- 4192-4248 231-287 — 57 100. 0% 0 0 4 a u 
Eson 9004-10093 381-470 90 100. 0% 0 0 d A 





pu 12099-12173 501-575 T5 100. 0% 0 0 ^d a 






图 1-29 Spidey 工 具 的 图 形 化 结果 显示 
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Exon 1: 570-657 (genomic); 1-88 (mRNA) 


570 GCTCGCGCTCCCCTGGCCACACCCTCCGCCT 
Tt 
1 CCTGGCCACACCCTCCGCC 
610 Tt CCCCAGC 
TT HELL TII 
4 AER C PCR CS UTI 
AAGTCCCT 


Exon 2: 1399-1459 (genomic); 89-149 (mRNA) 


1399 TCCCACAGATG TCGCCCTCTGG TCGCCTG TG TCT TCTCACCATCG TTG 
HELLE LEE HL ELLE EE ELE E LL FT 
89 ATGTCGCCCTCTGG TCGCCTG T6 TCTICICACCATCG TTG 
X'S-P'Sic Rok Ty 
1439 GCCTGATTCICCCCACCAGAGGTAAGACCCA 
WINN 
129 GCCTGATICTCCCCACCAGAG 


Cb Tb Po R 


图 1-30 Spidey 工 具 的 序列 比 对 结果 


二 ,利用 Spidey 工 具 进 行 可 变性 剪 切 的 分 析 》》》 


NADPH 氧 化 酶 (nicotinamide vadenine dinucleotide phosphate oxidase, NOX ) 家 族 是 许 
多 非 吞 鸣 细 胞 中 活性 氧 的 主要 来 源 , 通 过 该 途径 产生 的 活性 氧 作 为 信号 分 子 参与 了 细胞 分 
化 增殖、 凋 亡 等 的 调节 。NOX1 是 NOX 家 族 的 一 个 成 员 , 在 GenBank 数 据 库 中 检索 发 现 了 
AF127763.2、AF166326.1、AF166327.1 和 AF166328.1 四 条 非常 相似 的 mRNA 序列 ,这 些 序列 可 
能 是 NOX1 基 因 的 可 变性 剪 切 产生 的 产物 ,将 NOX1 基 因 所 在 的 基因 组 片段 编号 NG_012567.1 
黏 贴 在 界面 的 上 方 输入 框 , 四 个 mRNA 的 记录 号 粘贴 在 界面 的 下 方 输入 框 , 参 数 选择 默认 ， 
点 击 “Align”, 最 终 显示 的 可 变性 剪 切 的 图 形 界面 结果 (图 1-31 )。 通 过 分 析 这 个 图 形 化 结果 
和 后 续 的 序列 比 对 的 详细 信息 ,我 们 将 能 很 好 地 了 解 NOX1 的 可 变性 剪 切 的 方式 。 


mRNA 1: gi|6138993|gb |AF127763.2| Homo sapiens mitogenic oxidase mRNA, complete cds 
2: gi |6138993|gb|AF127763. 2| Homo sapiens mitogenic oxidase mRNA, complete cds 
3: gil6672077 |gb|AF166327.1| Homo sapiens NADPH oxidase homolog 1 long form 
TE mRNÀ, alternatively spliced, complete cds 

mRNÀ 4: gi 6672079 | gb |AF166328. 1| Homo sapiens NADPH oxidase homolog 1 long form 


variant (NOH1) mRNA, alternatively spliced, complete cds 














5001 36009 
Genomic 

mRNA 1 & i eee OE 
mRNA ci ll 
0, oe  — — LU rc L——ÁÁ— — M LLLA 

mRNA 4 : LU 了 | 有 








图 1-31 Spidey 工 具 进 行 可 变性 剪 切 分 析 的 图 形 化 结果 
(Al 猛 ) 
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基因 心 片 数据 分 析 


MICROARRAY DATA ANALYSIS 





基因 芯片 (gene chip ) 通常 被 称 为 微 阵列 ( microarray ), 它 是 20 世 纪 90 年 代 发 展 起 
来 的 一 种 高 通 量 检 测 基 因 表 达 水 平 的 生物 技术 。 基 因 芯 片 数据 能 够 反映 生物 个 体 的 
所 有 基因 在 特定 组 织 、 器 官 , 生 理 状态 (如 ,疾病 ) 或 发 育 阶 段 中 的 表达 情况 。 基 因 芯片 
技术 已 经 被 广泛 应 用 到 基因 的 功能 研究 .基因 的 转录 调控 分 析 、 疾 病 标志 物 ( marker ) 
的 识别 、 疾 病 亚 型 的 确定 疾病 的 精确 分 类 以 及 药物 靶 点 的 筛选 等 领域 ,为 复杂 疾病 的 
分 子 机 制 研 究 提供 了 转录 水 平 的 全 局 性 视角 , 极 大 加 快 了 药物 研发 的 进程 以 及 个 性 化 
医疗 的 开展 。 本 章 将 首先 简要 介绍 各 种 常见 的 基因 芯片 平台 ; 然后 结合 具体 软件 的 使 
用 ,讲解 基因 芯片 数据 的 预 处 理 方法 和 主要 分 析 技 术 ( 如 : 特征 基因 的 识别 、 聚 类 和 分 
类 分 析 等 ); 最 后 通过 两 个 具体 实例 说 明基 因 芯 片 数据 在 人 类 复杂 疾病 研究 中 的 应 用 。 








第 一 证 
基因 芯片 平台 简介 


Section 1 Introduction to Microarray Platforms 


AE DNUS Pr Jc H AK EDNA BR SETA H RET Si EAE DE LET PET PE] ,其 基本 原理 是 杂 
交 测 序 方法 。 基 因 芯 片 的 主要 特点 是 微型 化 (芯片 小 巧 入 集约 化 (一 张 芯片 可 以 完成 大 量 基 
因 的 检测 )、 自 动 化 (一 次 动作 可 以 完成 实验 室 从 探 针 的 固定 , 探 针 与 样本 杂交 等 过 程 多 个 步 
又 的 工作 ) 平 行 化 (检测 基因 在 同一 时 空 状态 下 的 表达 入 快速 灵敏 (检测 时 间 一 般 可 在 30 分 
钟 内 完成 ,如 果 采 用 控制 电场 的 方式 ,杂交 时 间 可 控制 在 1 分 钟 左右 入 样品 用 量 少 .成 本 相对 
低廉 等 优点 。 基 因 芯 片 的 类 型 众多 ,大 致 有 以 下 几 种 分 类 方式 : ID 以 基质 材料 分 ,有 尼龙 膜 、 
玻璃 片 、 硅 胶 晶片 .微型 磁 珠 等 ; @) 以 所 检测 的 生物 信号 种 类 分 ,有 核酸 、 蛋 白质 .生物 组 织 
片 甚至 完整 的 活 细胞 ; @3) 按 工作 原理 分 类 ,有 杂交 型 合成 型 .连接 型 . 亲 和 识 别 型 等 。 以 下 
将 介绍 几 种 具有 代表 性 的 基因 芯片 的 制备 过 程 及 特点 。 


—.cDNA®H >>> 


cDNA 芯片 (cDNA microarray ) 是 在 1995 年 由 美国 stanford 大 学 首先 研制 成 功 的 。cDNA 
芯片 的 制作 流程 如 图 2-1 所 示 : 首先 通过 克隆 的 方法 获得 目标 cDNA 序列 ,将 其 作为 探 针 
高 密度 固定 在 基质 上 制备 cDNA 芯片 ( 探 针 的 序列 是 已 知 的 六 然后 从 待 检测 的 实验 细胞 
( experimental cell ) 和 对 照 细 胞 ( control cell ) 中 分 别提 取 总 mRNA ,由 于 RNA 本 身 不 稳定 ,而 
cDNA 保存 时 间 较 长 ,因此 ,将 mRNA 反 转 录 (reverse transcription ) 成 cDNA ,并 分 别 用 红色 欧 
光 分 子 ( Cy5 ) 和 绿色 荧光 分 子 ( Cy3 ) 进行 标记 ; 接 下 来 将 两 组 cDNA 样本 等 比例 混合 ,在 一 
定 的 实验 条 件 下 与 蕊 片上 的 探 针 进行 杂交 ,杂交 完成 后 洗 脱 没有 与 探 针 互补 结合 的 cDNA 片 
B; 最 后 ,将 芯片 置 于 黑箱 中 ,对 芯片 进行 激光 共聚 焦 扫 描 , 获 得 每 个 探 针 杂交 后 的 荧光 强 
度 。 如 果 基 因 在 两 组 细胞 中 的 表达 水 平 相同 ,其 扫描 后 的 图 像 为 黄色 ,如 果 基 因 在 两 组 细胞 
中 的 表达 水 平 不 同 , 则 扫描 后 的 图 像 呈 现 红色 或 绿色 ,荧光 强度 值 定量 反映 了 基因 的 相对 表 
达 水 平 。 此 外 ,由 于 cDNA 芯片 的 探 针 来 源 于 样本 的 cDNA 克隆 ,因此 探 针 的 长 短 不 一 ,需要 
的 杂交 条 件 也 不 同 ,但 在 进行 芯片 杂交 时 只 能 设 定 一 个 杂交 条 件 ,其 结果 可 能 会 出 现 由 于 实 
验 本 身 导 致 的 非特 异性 杂交 和 杂交 效能 低 等 问题 ,因此 , cDNA 芯片 的 可 靠 性 和 重复 性 不 是 
很 理想 。 
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图 2-1 cDNA 芯片 制作 流程 


来 源 于 : http: //www.scq.ubc.ca/spot- your-genes-an-overview-of-the-microarray/ 


=. BRERA >) 


ZEE RASA ( oligonucleotide microarray ) AY 3:3 JR FEES ec DN Acts Fr 2S pL, 主要 通过 碱 基 
H RD PAL XS EY Ji DE T T Ze 3S, OR ROE HA EE EDGE ASEDS IS BETA TIO. SER BUS Hr HS ERAT EAS 
是 来 源 于 cDNA 克隆 ,而 是 预先 设计 并 合成 的 .能够 代表 每 个 基因 id F-PESEECI BR Fr Be 
度 约 为 SObp ,然后 将 其 点 样 到 特定 的 基质 上 制备 成 芯片 ,从 而 克服 了 cDNA 探 针 序列 太 长 导 
致 的 非特 异性 交叉 杂交 和 探 针 杂交 条 件 不 同 所 导致 GRAL SR TM, HOT ERR 
酸 探 针 是 预先 一 次 性 合成 ,并 且 每 次 芯片 制备 中 探 针 的 消耗 量 又 很 少 ,而 在 一 系列 实验 中 蕊 
片 的 制备 存在 时 间 差 ,因此 早期 合成 的 寡 核 苷 酸 片段 可 能 存在 降解 的 情况 ,从 而 导致 最 终 检 
测 质量 的 下 降 


三 、 原 位 合成 芯片 > 


原 位 合成 芯片 (light-controlled in situ synthesis of DNA microarrays ) 采 用 的 是 光 引 导 聚 合 
技术 ,在 芒 片 的 特定 部 位 原 位 合成 夫 核 芽 酸 探 针 ,其 方法 不 同 F ERDAS 片 的 点 样 技术 
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原 位 合成 芯片 的 探 针 制备 过 程 如 图 2-2 所 示 : 先 将 基 片 支持 物 ( wafer ) FERAE , AJ HAC 
感 的 保护 基 团 将 羟基 基 团 保护 起 来 。 每 次 选取 特制 的 光 掩 膜 ( mask ) 覆盖 在 基 片 上 ,遮挡 不 
需要 合成 的 部 位 。 当 光 通 过 光 掩 膜 照射 到 基 片 上 时 ,需要 聚合 的 部 位 透 光 , 受 光照 射 部 位 的 
羟基 去 保护 而 活化 。 然 后 加 入 3 ” 端 活化 (5 羟基 末端 连接 光敏 保护 基 团 ) 的 单一 核 背 酸 单 
体 底 物 后 ,发生 偶 联 反应 。 在 一 轮 反 应 之 后 更 换 另 一 张 光 掩 膜 来 控制 活化 区 域 , 并 换 另 一 种 
核 背 酸 单 体 实现 在 特定 位 点 合成 预定 的 序列 寡 聚 体 。 每 次 通过 控制 光 掩 膜 (决定 哪些 区 域 
应 被 活化 ) 以 及 所 用 核 苷 酸 单 体 的 种 类 和 反应 次 序 就 可 以 实现 在 特定 位 点 合成 大 量 预 定 序 
列 寡 聚 体 的 目的 。 使 用 多 种 掩盖 物 能 以 更 少 的 合成 步 又 生产 出 高 密度 的 阵列 ,在 合成 循环 
中 探 针 数目 呈 指 数 增长 。 光 掩 膜 的 设计 和 严格 的 工艺 流程 使 制造 的 芯片 具有 高 密度 ,高 重 
复 性 和 一 致 性 。 


$ 3 4 x z Chemical bu 
早早 早早 早早 Light 早早 HT 早早 coupling e EE C TF First cycle 


LLL ML 6T 
+ Glass G 


Light 
£4444 : m 
gH 
= = : 9 = Chemical A B® 时 
li 早早 9 a aa Light G E H T = H —— G - 个 e - 个 Second cycle 


图 2-2 原 位 合成 芯片 的 探 针 制备 过 程 
来 源 于 : http: //bioservices.capitalbio.com/fwpt/Aff ymetrixpt/3943.shtm]1 


原 位 合成 芯片 为 单 通道 芯片 , 即 只 使 用 一 种 荧光 分 子 对 样本 进行 标记 ,通过 检测 荧光 
强度 获得 基因 的 表达 水 平 。 由 于 寡 核 苷 酸 探 针 长 度 较 短 (一 般 为 15~25 个 碱 基 ), 对 于 某 个 
待 检测 的 基因 通常 需要 设计 多 个 相互 重合 的 探 针 构成 探 针 集 ,从 而 有 效 减少 探 针 厅 交 非 
专 一 性 的 影响 。 该 类 芯片 的 主要 优势 在 于 所 有 探 针 都 是 在 一 个 条 件 下 完成 的 ,因此 同一 
批 芯片 的 探 针 浓度 均一 性 较 好 ; 此 外 ,由 于 该 类 芯片 的 探 针 合成 和 芯片 制备 是 同时 进行 
的 , 探 针 不 需要 预先 合成 ,所 以 避免 了 点 样 芯片 中 探 针 的 降解 情况 ,从 而 保证 了 实验 的 重 
复 性 ; 同时 ,考虑 到 探 针 的 非特 异性 杂交 问题 ,该 类 芯片 通常 针对 每 段 参考 序列 ( reference 
sequence ) 设计 一 对 窒 核 苷 酸 探 针 , 其 中 一 个 是 完全 匹配 ( perfect match, PM ) 的 探 针 ， 

一 个 是 中 间 有 一 个 碱 基 错 配 ( mismatch, MM ) 的 探 针 ,计算 时 将 每 对 PM- OSE HEU 
号 综合 起 来 ,这 样 有 助 于 区 分 特异 性 结合 与 非特 异性 结合 的 靶 片 段 ,从 而 提高 探 针 灵敏 度 
和 特异 性 (图 2-3 )。 这 种 PM-MM 设 计 对 于 复杂 序列 背景 样品 中 低 丰 度 表 达 产 物 的 检测 有 
明显 优势 。 
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mRNA reference 
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reference sequence 
.. TETGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC... 


AATGGGTCAGAAGGACTCCTATGTG |Perfect match probe 
AATGGGTCAGAACGACTCCTATGTG |Mismatch probe 


Probe Pair 






PM 
MM 


Probe Set: 


图 2-3 原 位 合成 芯片 的 探 针 设计 原则 
来 源 于 : http: /bioservices.capitalbio.com/fwpt/Affymetrixpt/3943.shtm1 


四 、 光 纤 微 珠 忌 片 >> 


光纤 微 珠 芯片 (beadarray microarray ) 是 利用 无 孔 无 效 光 硅 珠 阵列 ( beadarray ) 的 技术 制 
备 的 一 种 芯片 ,是 新 一 代 的 基因 芯片 。 光 纤 微 珠 芯片 具备 如 下 特点 : 四 密度 高 ,该 类 芯片 是 
目前 最 高 密度 的 芯片 制备 技术 ,每 平方 厘米 有 约 400 万 个 点 ( 微 珠 ); 上 样 量 低 , 每 个 芯片 
在 一 轮 反 转录 的 情况 下 仅 需 50~100ng RNA; @) 重 复 性 高 ,芯片 设计 中 的 “无 序 自 组 装 ” 方式 
以 及 每 种 类 型 微 珠 的 30 倍 重复 的 特点 保证 了 芯片 的 高 重复 性 ; 由 数据 准确 性 高 ,定量 PCR 
(qPCR ) 是 检验 芯片 数据 的 黄金 标准 ,实验 表明 全 基因 组 表达 世 片 ( Human-6, Humanref-8 ) 
和 qPCR 相关 系数 R=0.93, 特定 基因 组 研究 芯片 和 qPCR 相关 系数 R=0.97 ; (B100% 质 量 控 
制 ,芯片 生 产 过 程 中 采用 专利 的 解码 技术 ,质量 控制 能 深入 到 每 张 芯片 上 每 个 微 珠 的 每 个 
特性 ,保证 数据 的 可 靠 性 和 重复 性 ; 人 @@ 性 价 比 高 ,光纤 微 珠 芯片 价格 是 传统 商品 化 芯片 的 
1/2-1/3 ,有效 降 低 了 世 片 成 本 。 
光纤 微 珠 芯片 设计 的 基本 原理 如 图 2-4 所 示 , 其 主要 组 成 元 件 是 光 导 纤维 和 纳米 材料 
(ER ), 探 针 连 接 在 微 珠 上 ,每 个 探 针 由 两 部 分 组 成 : 23bp 的 地 址 序列 ( address ) 和 50bp 的 探 
针 序 列 。 地 址 序列 对 每 种 微 珠 进行 编码 ,特异 对 应 于 某 个 微 珠 , 而 探 针 序列 则 代表 某 个 基因 
的 特异 片段 。 探 针 在 合成 纯化 后 与 微 珠 通过 化 学 反应 连接 ,每 个 微 珠 可 以 连接 100 万 左右 相 
同 的 探 针 ,为 保证 充足 的 探 针 数目 ,每 个 微 珠 还 设计 了 30 个 重复 。 将 不 同类 型 的 微 珠 进行 混 
合 形成 “ 微 珠 池 ” ,将 若干 束 微小 光纤 插入 微 珠 池 , 每 5 万 根 光纤 组 成 一 束 , 每 根 光 纤 的 末端 有 
一 个 用 化 学 方法 蚀刻 的 微 孔 ,每 个 微 孔 内 恰好 仅 可 容纳 一 个 直径 为 3 m 的 微 珠 , 微 珠 以 “无 
序 自 组 装 ” 的 方式 随机 进入 光纤 束 上 的 微 孔 组 装 成 芯片 。 将 从 样本 中 提取 的 mRNA 反 转录 
成 cDNA ,并 进一步 产生 cRNA( 通 过 挫 入 带 诡 光标 记 的 核 昔 酸 进行 标记 ), 带 有 标记 的 cRNA 
与 微 珠 上 的 特异 性 探 针 杂 交 。 从 激光 扫描 仪 上 发 出 激光 通过 光纤 传递 给 荧光 素 , 后 者 发 出 
的 光 又 通过 光纤 传递 给 检测 器 。 最 后 ,采用 解码 流程 对 芯片 上 微 珠 的 类 型 .位置 .数量 .信和 号 
强 弱 进行 解读 ,如 果 某 个 微 珠 的 质量 控制 不 达标 ,该 通道 将 被 关闭 。 解 码 过程 同 时 完成 了 对 
芯片 信息 的 采集 以 及 100% 的 质量 控制 。 
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图 2-4 光纤 徽 珠 芯 片 设计 原理 





第 二 节 
基因 芯片 数据 的 预 处 理 


Section 2 Preprocessing of Microarray Data 


由 于 基因 芯片 平台 的 差异 .系统 误差 的 存在 以 及 后 期 计算 的 需要 ,在 对 基因 芯片 数据 进 
ITRE 分 类 等 分 析 之 前 ,往往 需要 先进 行 预 处 理 ( pre-procession )。 预 处 理 的 过 程 主要 包括 
数据 提取 ,将 高 通 量 的 荧光 信号 转化 成 基因 表达 数据 ; 数据 过 滤 ,去 除 异 常数 据 和 噪声 数据 ; 
补缺 失 值 ,保证 数据 的 完整 性 ; 对 数 转 换 , 以 满足 正 态 分 布 的 分 析 要 求 ; 标准 化 ,纠正 系统 误 
差 ,以 发 现 真 正 的 生物 学 变异 。 


一 、 基 因 芯 片 数据 的 提取 >>> 


双 通 道 芯片 使 用 Cy5( 红 ) 和 Cy3( 绿 ) 两 种 荧光 分 别 标记 实验 样本 和 对 照样 本 的 cDNA 序 
列 ,然后 杂交 至 同一 芯片 。 用 不 同 波长 的 激光 扫描 芯片 ,获得 获 光 强度 值 。 每 个 荧光 点 的 原 
始 信号 值 包括 前 景 值 和 背景 值 , 该 点 的 荧光 强度 则 用 前 景 值 减 去 背景 值 表示 。cDNA 芯 片 扫 
描 得 到 的 结果 反映 了 基因 在 实验 样本 和 对 照样 本 中 的 相对 表达 水 平 。 在 扫描 后 的 芯片 图 
像 上 ,红色 表示 该 点 所 检测 的 基因 在 实验 样本 中 表达 呈现 上 调 , 绿 色 表 示 表 达 下 调 , 黄 色 表 
示 表 达 无 改变 。 对 于 单 通道 芯片 ,扫描 后 的 荧光 强度 由 深 到 浅 依次 为 蓝 黑 、 蓝 、 高 蓝 、 绿 、 黄 、 
梯 \ 红 、 白 ,颜色 越 深 表示 荧光 强度 越 高 , 即 与 探 针 杂 交 的 RNA 越 多 ,从 而 基因 的 表达 量 越 高 。 
芯片 扫描 系统 的 图 像 处 理 软件 包括 将 获 光 信号 转化 成 数字 信和 号 的 数据 提取 过 程 和 基于 探 针 
集 的 基因 表达 值 汇总 过 程 。 提 取 后 的 基因 表达 数据 可 以 用 矩阵 形式 表示 , 行 代表 基因 , 列 代 
表 样 本 ,和 矩阵 中 的 元 素 表 示 基 因 在 样本 中 的 表达 水 平 ,这 种 类 型 的 数据 通常 被 称 为 基因 表达 


谱 ( gene expression profile )。 


二 数据 过 滤 》》 


数据 过 滤 是 数据 分 析 前 必须 进行 的 一 项 工作 。 基 因 芯 片 中 每 个 点 的 信号 强度 是 前 景 
信号 值 减 去 背景 信号 值 ,然而 ,有 时 会 出 现 负 值 或 很 小 的 值 ,显然 负 值 是 没有 生物 学 意义 的 。 
男 外 ,由 于 过 闪光 现象 物理 因素 导致 的 信号 污染 、 杂 交 效 能 低 或 点 样 问题 等 因素 都 可 能 导 
致 数据 的 不 真实 。 数 据 过 滤 的 目的 就 是 要 去 除 表 达 水 平 是 负 值 、 很 小 的 数据 或 者 明显 的 品 
声 数 据 ,通常 的 处 理 方 法 是 将 它们 置 为 缺失 、 赋 予 统一 的 数值 或 者 去 除 。 
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三 、 补 缺失 值 》》》 


基因 表达 水 平 过 高 或 过 低 都 会 影响 荧光 强度 的 检测 ,导致 数据 缺失 ; 其 他 因素 ,例如 芯 
片 图 像 的 损坏 指纹 灰尘 等 原因 ,也 会 产生 缺失 值 。 数 据 的 缺失 对 于 后 续 的 数据 分 析 有 着 
很 大 的 影响 ,为 了 保证 基因 表达 数据 的 完整 性 ,补缺 失 值 是 十 分 必要 的 ,常用 的 方法 有 直接 
删除 、 补 均值 近邻 法 和 回归 法 等 。 

最 简单 的 方法 就 是 直接 删除 含有 缺失 值 的 行 向 量 或 列 向 量 ; 或 者 计算 每 行 或 每 列 中 含 
有 的 缺失 值 数 目 ,如 果 缺 失 值 过 多 , 则 删除 此 行 或 列 ,否则 用 0 ,每 行 或 每 列 的 均值 或 中 值 进 
行 补 缺 。 但 用 此 方法 补 出 的 缺失 值 很 难 评估 其 与 真实 值 的 接近 程度 ,因此 ,还 可 以 用 4 近邻 
法 和 回归 法 等 来 估算 缺失 值 。 

4 近邻 法 的 基本 思想 是 利用 与 待 补缺 基因 距离 最 近 的 4 个 邻居 基因 的 表达 值 推测 待 补 缺 
基因 的 表达 值 。 首 先 确 定 含 有 缺失 值 的 基因 的 k 个 邻居 ,然后 利用 邻居 基因 在 该 样本 中 的 加 
权 平 均 估计 缺失 值 , 常 用 的 定义 邻居 基因 的 距离 函数 有 欧式 距离 或 相关 系数 。 

回归 法 与 & 近 邻 法 相似 ,首先 确定 待 补缺 基因 的 个 邻居 ,然后 利用 每 个 邻居 基因 分 别 作 线 
性 回归 模型 预测 缺失 值 ,最 后 将 # 个 缺失 值 加 权 求 平均 作为 最 终 缺 失 值 的 估计 值 。 基 本 步 又 为 : 

L. 确定 含有 缺失 值 的 基因 i 的 k 个 邻居 基因 , BL, XC, XENIA AB I En T FE h 
的 表达 水 平 。 

2. 具有 缺失 值 的 基因 ; 较 之 邻居 基因 分 别 作 线性 回归 模型 : 

X,=a *bX, 
X, -a,* b X, (2-1) 


X, =a,+b,X, 
3. 基于 回归 模型 预测 缺失 值 ( 假 设 基因 在 样本 /中 表达 值 缺失 ): 
PUR =a, tb; 


Xj =a, bx, (2-2) 
x, 8b. 
4. K 个 缺失 值 的 加 权 平均 作为 最 终 缺 失 值 的 估计 值 : 
X7 XE (2-3) 
这 里 w 为 邻居 基因 的 权重 ,车 邻居 基因 与 基因 i 的 距离 近 , 则 权重 大 ,反之 权重 小 。 
四 、 数 据 对 数 化 处 理 》》 


基因 芯片 数据 一 般 呈 偏 态 分 布 ,影响 数据 的 进一步 分 析 。 将 数据 对 数 化 转换 后 ,数据 
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会 近似 服从 正 态 分 布 (图 2-5 ), 从 而 为 后 续 的 数据 分 析 带 来 方便 ,通常 取 以 2 为 底 的 对 数 
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Ratio Log(Ratio) 
图 2-5 数据 对 数 转换 前 后 log 一 Ratio 值 分 布 图 


五 ,数据 标准 化 >>> 


由 于 实验 条 件 、 基 质 、 染 料 物理 特性 \ 点 样 针 以 及 扫描 仪 采集 数据 时 的 参数 设置 等 存在 
着 差异 ,因此 ,基因 芯片 实验 不 可 避免 地 产生 了 一 些 系统 误差 。 数 据 标准 化 ( normalization ) 
的 目的 就 是 去 除 这 些 系统 误差 ,从 而 挖掘 出 真正 的 生物 学 变异 ,确保 后 期 数据 分 析 的 可 

在 对 芯片 进行 标准 化 处 理 时 ,通常 涉及 参照 基因 的 选择 问题 ,那么 哪些 基因 适合 作为 参 
照 物 呢 ? 一 般 是 以 具有 稳定 表达 的 基因 作为 芯片 标 化 的 参照 基因 ,这 些 基因 在 不 同 条件 下 
表达 值 相同 ,因此 , 测 得 基因 的 荧光 强度 值 的 差异 主要 是 由 系统 误差 造成 的 ,这 样 便 可 估计 
出 系统 误差 的 大 小 。 稳 定 表达 的 基因 主要 有 以 下 几 种 : 持家 基因 和 人 工 合成 的 控制 基因 可 
以 作为 参照 基因 ,但 是 由 于 实验 误差 以 及 杂交 特异 性 的 问题 ,它们 通常 并 不 像 人 们 想象 的 那 
样 在 不 同 实验 条 件 下 稳定 表达 ,这 就 使 得 标准 化 结果 的 可 靠 性 不 高 ; 此 外 ,在 基因 芯片 中 , 真 
正 表达 异常 的 基因 只 有 一 小 部 分 ,大 部 分 基因 在 不 同 条 件 下 都 是 稳定 表达 的 ,所 以 运用 这 大 
部 分 稳定 表达 的 基因 作为 参照 基因 ,标准 化 结果 更 为 可 靠 。 

由 于 单 、 双 通道 芯片 制作 原理 不 同 ,系统 误差 的 来 源 也 不 同 , 所 以 在 进行 数据 标准 化 时 
需要 选用 不 同 的 方法 。 

(一 ) cDNA 芯片 


cDNA 芯片 的 数据 标准 化 主要 分 为 片 内 标准 化 和 片 间 标准 化 。 片 内 标准 化 是 对 一 个 实 
验 中 的 不 同 芯片 进行 独立 操作 ,一 般 指 去 除 荧 光 染 色 和 点 样 针 带 来 的 系统 误差 。 片 间 标 准 
化 的 目的 是 去 除 不 同 芯 片 间 的 系统 误差 ,使 不 同 芯 片 检测 的 基因 表达 值 具 有 可 比 性 。 

1. 片 内 标准 化 ” 片 内 标准 化 的 主要 方法 有 全 局 标准 化 ` 效 光 强 度 依赖 的 标准 化 和 点 样 
针 组 内 标准 化 。 本 节 重 点 介绍 全 局 标准 化 方法 ,主要 过 程 如 下 : 

cDNA 芯片 检测 的 荧光 强度 值 表示 的 是 基因 的 相对 表达 水 平 , 取 对 数 后 ( log-Ratio 值 ) 近 
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似 服从 正 态 分 布 。 由 于 芯片 上 大 部 分 基因 的 表达 都 是 稳定 的 ,所 以 芯片 上 所 有 基因 的 log- 
Ratio 值 均值 应 该 为 0( 图 2-6 黄 线 所 示 )。 而 实际 上 ,由 于 红 光 和 绿 光 的 荧光 强度 存在 差异 , 即 
使 表达 完全 相同 的 两 个 基因 经 Cy5 和 Cy3 标 记 后 所 测 得 的 荧光 强度 也 不 一 致 ,因此 , log-Ratio 
值 分 布 的 均值 会 偏离 0( 图 2-6 红 线 所 示 )。 全 局 标准 化 的 目的 就 是 将 实际 测 得 的 log-Ratio 值 
分 布 的 峰值 位 置 移 至 0 处 ,公式 如 下 : 

log,R/G — log,R/G-c (2-4) 
其 中 , c 表 示 芯 片上 所 有 基因 的 log-Ratio 的 中 值 或 均值 。 
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图 2-6 全 局 标准 化 前 后 log 一 Ratio 值 分 布 图 
来 源 于 : Yang et al.: Normalization for cDNA microarray data: a robust composite 
method addressing single and multiple slide systematic variation.Nucleic 
Acids Res.,2002,30( 4 ): e15. 


全 局 标准 化 消除 了 染料 偏 倚 带 来 的 系统 误差 ,应 用 较为 普遍 。 在 芯片 实验 中 ,染料 偏 倚 
的 大 小 还 依赖 于 荧光 强度 的 高 低 , 在 不 同 的 荧光 强度 下 ,对 应 的 log-Ratio 值 分 布 的 峰值 偏离 
0 的 大 小 也 不 同 。 因 此 ,荧光 强度 依赖 的 标准 化 的 目的 就 是 将 不 同 荧光 强度 对 应 的 log-Ratio 
值 分 布 的 峰值 移 回 0 处 ,消除 荧光 强度 依赖 的 染料 偏 傈 。 此 外 , 由 于 点 样 针 的 长 短 ` 粗 细 、 磨 


损 程 度 ,点 样 顺序 等 差异 的 存在 ,也 会 引入 系统 误差 ,点 样 针 组 内 标准 化 正 是 为 了 消除 这 种 
点 样 针 带 来 的 系统 误差 。 


2. 片 间 标准 化 ” 片 间 标 化 的 常用 方法 有 分 位 数 标准 化 和 中 位 数 标准 化 。 

(1 ) 分 位 数 标 准 化 : 分 位 数 标 化 的 前 提 假 设 是 每 张 芯片 所 检测 的 数据 具有 相同 的 分 布 ， 
具体 算法 如 下 : 

1 ) 将 基因 表达 谱 中 的 每 列 (每 张 芯片 ) 数 据 分 别 按照 从 大 到 小 排序 。 

2 ) 在 排序 后 的 矩阵 中 ,每 行 每 个 位 置 的 数据 均 用 该 行 的 均值 所 替代 。 

3 ) 将 新 矩阵 的 每 列 数据 分 别 按照 在 原 矩 阵 中 的 位 置 重新 排序 ,从 而 得 到 标准 化 的 基因 
表达 谱 。 

将 芯片 进行 分 位 数 标 准 化 后 就 能 保证 每 张 芯片 具有 完全 相同 的 数据 分 布 。 
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(2 ) 中 位 数 标 准 化 : 对 于 双 通 道 芯片 数据 来 说 ,中 位 数 标准 化 方法 就 是 将 每 张 芯片 上 的 
数值 减 去 各 自 芯 片上 log-Ratio 值 的 中 位 数 。 通 过 这 样 的 处 理 , 所 有 芯片 的 log-Ratio 值 的 中 位 
数 就 都 变 成 了 0, 从 而 使 得 不 同 芯片 间 的 log-Ratio 值 具有 可 比 性 。 


(二 ) 单 通道 芯片 


由 于 单 、 双 通道 芯片 的 制备 原理 不 同 , 系 统 误 差 的 来 源 也 不 同 。 相 比 于 双 通 道 的 cDNA 
芯片 ,与 单 通道 的 寡 核 苷 酸 芯片 杂交 的 是 单个 样本 , 而 不 是 实验 样本 与 对 照样 本 的 混合 物 ， 
所 以 单 通道 芯片 不 存在 cDNA 芯片 中 所 涉及 的 染料 偏 倚 所 带 来 的 系统 误差 ; 此 外 , 单 通道 芯 
片 的 探 针 一 般 是 采用 原 位 合成 的 方法 而 非 点 样 法 ,所 以 也 不 存在 点 样 针 的 差异 所 产生 的 系 
统 误差 。 因 此 , 单 通道 芯片 的 系统 误差 主要 是 由 不 同 芯 片 间 的 差异 所 引起 的 ,其 标准 化 方法 
与 双 通 道 的 标准 化 方法 类 似 的 ,这 里 不 再 单独 介绍 。 


六 、 应 用 举例 >>> 


BRB-Arraytools 是 基因 芯片 数据 预 处 理 的 常用 软件 之 一 (详细 的 功能 描述 见 本 章 第 六 
节 ) 在 此 ,我 们 以 一 套 阿 尔 蒋 海 默 病 相关 的 基因 表达 谱 数据 为 例 来 详细 讲解 如 何 利 用 该 软 
件 进行 数据 预 处 理 ,该 套数 据 是 利用 Affymetrix 公 司 的 寡 核 苷 酸 芯片 HG-U133 Plus 2.0 Array 
检测 阿尔 茨 海 默 病 病人 和 正常 老年 人 大 脑 中 六 个 不 同 区 域 的 基因 表达 情况 ,其 在 CEO( gene 
expression omnibus ) 数据 库 中 的 编号 为 CSE5281。 我 们 仅 选 择 其 中 一 个 区 域 一 一 内 侧 里 回 
( middle temporal gyrus, MTG ) 的 数据 来 进行 说 明 ,具体 操作 步骤 如 下 : 

第 一 步 : 导入 芯片 数据 (图 2-7 )。 使 用 “Import data” FEY “General Format Importer” 导 
入 基因 芯片 数据 文件 ,在 该 文件 中 数据 之 间 应 为 Tab 键 分 隔 (或 使 用 Exce] 文 件 ), 此 外 ,也 可 使 
FH “Data Import Wizard” 进 行 导入 。 














Data import wizard 










j Ls RS 
| Analysis wizard | NCBI GEO archive 
| 
“| affymetrix Gene 1.0 ST Array Importer 


| Quantitative trait analysis 

1 Time course analysis 

|  Be-fiter, normalize and subset the data 
Plugins 


We ee 





Dsseuumsd — 








图 2-7 时 入 芯片 数据 
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第 二 步 : 选择 文件 类 型 (图 2-8 )。 如 果 需 要 导入 的 基因 芯片 数据 是 每 张 芯片 用 单独 的 文 
件 存储 ,多 个 文件 保存 在 一 个 文件 夹 中 , 则 选择 “Arrays are saved in separate files stored in one 
folder" ; 如 果 多 张 芯片 数据 组 织 成 一 个 矩阵 的 形式 ,存储 在 一 个 文件 中 , 则 选择 “Arrays are 
saved in a horizontally aligned file”, 由 于 本 例 的 数据 是 存储 在 一 个 文件 中 的 基因 表达 谱 数据 ， 
因此 ,我 们 选择 后 者 。 









General Format Importer 











This General Format Importer will allow you to specify the file type, data type, and structure of 
pute m mm files. For other file types, please use 
—— "cie mI : 














Hee 0000 ^ 
| © arrays are saved in separate files stored in one folder. MUN ig EE 
l G [Arrays are saved in a horizontally aligned file| 











x E “eft ie waht 
de aa aa en tat — 一- — > - 一 MÀ 








图 2-8 选择 文件 类 型 
第 三 步 : 选择 芯片 数据 文件 所 存储 的 路 径 ( 图 2-9 ,注意 路 径 中 不 能 包含 中 文 )。 


General Format Importer 











| 
| The espresson data for al arrays should be sored one horny loe i | 








| File containing expression data for all arrays: i iic 


| | File | C:\GEO\GSE528 1_MTG.xisx -| 


| z Ca E 








图 2-9 选择 芯片 数据 文件 所 在 路 径 


第 四 步 : 选择 基因 芯片 的 平台 (图 2-10 )。 在 该 步 选择 芯片 的 平台 类 型 ( 单 通 道 或 双 通 
道 ), 如 果 是 Affymetrix 公 司 的 单 通道 芯片 ,还 可 以 进一步 指定 具体 的 平台 型 号 ,此 外 ,在 该 步 
又 还 需要 选择 所 导入 的 数据 是 否 进行 了 log2 对 数 转 换 。 由 于 本 例 中 采用 的 是 Afftymetrix 公 司 
的 HC-U133 Plus 2.0 Array P A ,并 且 未 进行 过 log2 对 数 转 换 ， 所 以 我 们 在 相应 位 置 选择 具体 
的 平台 信息 ,同时 不 选择 “The data are already log2 transformed." 

第 五 步 : 指定 所 导入 的 文件 中 的 数据 区 域 ( 图 2-11 )。 通过 选择 文件 中 的 标题 行 第-_ 行 
数据 、 探 针 所 在 列 、 第 一 列 数据 和 第 二 列 数据 来 确定 基因 表达 谱 的 数据 区 域 ,点 击 “Next” 会 
显示 导入 的 文件 中 所 包含 的 基因 芯片 的 个 数 , 即 数据 的 列 数 。 

第 六 步 : 数据 的 过 滤 和 标准 化 (图 2-12 )。 该 部 分 包括 三 个 子 步 又 ,首先 是 探 针 的 过 滤 ， 
删除 那些 表达 强度 很 低 或 无 意义 的 探 针 数据 ; 然后 是 数据 的 标准 化 ,该 软件 整合 了 分 位 数 标 
准 化 和 中 值 标准 化 等 多 种 方法 ; 最 后 是 基因 的 过 滤 ,因为 我 们 更 关心 那些 随 着 实验 条 件 的 改 
变 表达 水 平 发 生变 化 的 基因 ,因此 ,在 这 步 可 以 将 那些 表达 波动 较 小 的 基因 去 除 。 
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图 2-11 选择 文件 格式 
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图 2-12 选择 标准 化 方法 


第 七 步 : 基因 注释 (图 2-13 )。 由 于 基因 芯片 检测 的 是 探 针 的 表达 情况 ,而 探 针 和 基因 之 
间 往往 不 是 一 一 对 应 的 ,所 以 ,在 数据 导入 后 软件 会 询问 是 否 需 要 进行 基因 注释 , 即 是 否 需 
要 将 探 针 转换 成 相应 的 基因 名 ( gene symbol ) 或 Entrez ID. 





图 2-13 选择 是 否 对 基因 做 注释 


经 过 以 上 步 又 ,基因 芯片 的 预 处 理 已 经 结束 ,我们 获得 了 经 过 过 滤 的 标准 化 数据 ,基于 
该 数据 可 以 进行 接 下 来 的 深入 分 析 。 





第 三 节 
特征 基因 挖掘 


Section 3 Feature Gene Mining 


特征 选择 ( feature selection ) 是 按照 某 一 个 评价 准则 从 描述 实例 的 高 维特 征集 中 搜索 出 
低 维 的 最 优 特征 子 集 , 从 而 最 大 限度 地 提高 分 类 器 的 性 能 (分 类 器 将 在 本 章 第 五 节 详 细 介 
绍 )。 特 征 个 数 越 多 越 容易 引起 “维度 灾难 ” ,得 到 的 模型 越 复杂 ,可 移植 性 也 随 之 下 降 。 特 
征 选择 能 够 通过 剔除 元 余 特 征 减少 特征 数目 ,达到 提高 模型 精度 减少 运行 时 间 的 目的 。 
基因 芯片 数据 具有 高 维度 、 高 信 品 比 、 高 相关 (元 余 ) 的 特点 ,基于 基因 表达 谱 从 大 量 的 基因 
中 寻找 对 疾病 有 鉴别 力 的 基因 或 疾病 相关 基因 作为 疾病 标志 物 ,也 就 是 基因 芯片 分 析 中 的 
特征 选择 问题 。 


一 特征 选择 的 过 程 >>> 


特征 选择 过 程 通常 包含 以 下 四 个 方面 : 开始 点 的 选择 ; 搜索 策略 ( search strategy ); 评价 
准则 ( evaluation criteria ); 停止 条 件 。 在 实际 学 习 中 ,选择 一 个 较 优 的 特征 子 集 主要 依赖 于 
搜索 策略 和 评价 准则 这 两 个 方面 。 总 的 来 说 ,特征 选择 的 理想 效果 是 : 将 所 有 可 能 的 特征 子 
集 作 为 属性 训练 分 类 器 ,然后 选取 能 够 使 分 类 器 达到 最 佳 分 类 效能 的 特征 子 集 。 


(—) 开始 点 的 选择 


从 大 量 特征 中 选择 构成 最 优 特征 子 集 的 特征 ,需要 对 特征 全 集 进 行 搜索 ,搜索 的 方向 
受 开 始点 选择 的 影响 。 如 果 把 空 集 作 为 初始 特征 子 集 , 逐 次 递 加 特征 进入 特征 子 集 , 称 为 向 
前 选择 ( forward selection ); 如 果 把 含有 所 有 特征 的 特征 全 集 作 为 初始 特征 子 集 ,逐次 剔除 特 
征 称 为 向 后 选择 ( backward elimination )。 此 外 ,还 有 比较 复杂 的 开始 点 选择 方式 ,例如 : 如 
果 把 包含 一 定数 目 特征 的 特征 子 集 作 为 初始 特征 子 集 ,然后 向 外 扩展 , 称 为 双向 搜索 (bi- 
direction search ); 从 随机 选择 的 特征 子 集 开 始 搜索 ,再 随机 增加 或 减少 特征 , 则 称 为 随机 搜 


索 ( non-deterministic search )。 


(二 ) 搜索 策略 


理想 情况 下 ,搜索 策略 应 该 能 够 以 较 低 的 计算 花费 找到 最 优 特征 子 集 。 但 通常 这 两 个 
条 件 不 能 同时 满足 ,需要 折 中 权衡 。 现 有 的 搜索 策略 有 许多 种 ,按照 寻找 特征 子 集 的 过 程 大 
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致 可 归纳 为 以 下 三 类 : 完全 搜索 ( complete search ) 启 发 式 搜索 ( heuristic search ) 和 随机 搜索 
( non-deterministic search )。 

1. 完全 搜索 ” 穷 举 法 是 最 常见 的 一 种 完全 搜索 方法 ,其 通过 遍历 所 有 可 能 的 特征 子 
集 , 从 而 保证 搜索 到 的 是 最 优 特征 子 集 。 分 梳 定 界 法 是 按照 定好 的 界 进行 分 枝 , 其 本 质 仍 是 
穷 举 法 。 将 所 有 特征 子 集 组 织 成 树 形 结构 ,这 些 特 征 子 集 构成 解 空间 。 所 谓 “ 分 枝 ” 就 是 不 
断 将 解 空 间 分 割 成 更 小 的 解 子 集 ,“ 定 界 ” 则 是 对 分 割 得 到 的 更 小 解 子 集 计 算 一 个 上 界 或 下 
界 , 对 超越 出 该 界限 的 解 子 集 ( 即 非 最 优 的 特征 子 集 ) 不 再 进行 分 校 。 通 过 缩小 搜索 范围 ,分 
枝 定 界 法 能 够 提高 算法 效率 ,同时 也 能 够 求 得 最 优 解 。 以 上 两 种 方法 都 是 以 大 量 的 时 间 和 
空间 消耗 为 代价 来 获得 最 优 解 , 当 特 征 维 数 较 小 时 ,可 以 获得 很 好 的 效果 。 但 当 特 征 维 数 较 
大 时 ,由 于 运算 量 太 大 ,用 计算 机 实现 也 可 能 会 遇 到 困难 。 因 此 , 当 特 征 维 数 较 大 时 ,可 以 采 
用 启发 式 搜索 来 缩小 搜索 范围 ,获得 次 优 解 。 

2. 启发 式 搜索 “” 贪 焚 登山 法 ( greedy climbing hill )、 遗 传 算法 ( genetic algorithm )、 模 拟 退 
火 算法 (simulated annealing algorithm ) 和 Tabu 搜 索 算法 等 都 属于 启发 式 搜索 算法 。 这 些 算法 
的 主要 思想 是 人 类 经 过 长 期 对 物理 生物 和 社会 的 仔细 观察 和 实践 ,通过 对 这 些 现 象 的 深刻 
理解 ,逐步 向 自然 学 习 , 模 仿 它们 的 运行 机 制 而 得 到 的 ,如 模拟 退火 受 物理 学 上 固体 物质 的 
退火 现象 启迪 ,遗传 算法 则 得 益 于 生物 进化 论 。 启 发 式 搜索 通常 从 可 行 的 初始 解 出 发 ,采用 
迭代 改进 的 策略 ,能 较 快 接近 最 优 解 ,但 不 能 保证 得 到 的 解 一 定 是 最 优 解 。 

(1 ) 贪 焚 登 山 法 : 贪 焚 登 山 法 包括 顺序 前 进 法 顺序 后 退 法 和 增 7 减 4 法 。 顺 序 前 进 法 每 
次 从 未 入 选 的 特征 中 选择 一 个 ,加 入 已 人 选 特 征 的 集合 ,使 其 与 已 人 选 特征 组 合 在 一 起 时 所 
得 的 目标 函数 最 大 (如 分 类 器 的 正确 率 最 高 ), 直 到 特征 数 增加 到 一 定数 目 为 止 。 类 似 地 , 顺 
序 后 退 法 从 所 有 特征 构成 的 集合 开始 ,每 次 剔除 一 个 特征 ,所 剔除 的 特征 应 该 使 仍然 保留 的 
特征 所 得 到 的 目标 函数 最 大 。 顺 序 前 进 法 和 顺序 后 退 法 都 是 进行 简单 的 串 行 搜索 ,会 遗漏 
掉 大 量 的 特征 组 合 , 而 且 一 旦 某 个 特征 被 选 人 (剔除 ), 就 不 能 再 剔除 ( 选 和 人)。 为 了 弥补 这 种 
不 可 回溯 的 缺点 ,可 以 在 搜索 过 程 中 加 入 局 部 回溯 ,这 就 是 增 " 减 4 法 。 增 / 减 4 法 是 在 未 中 
先 用 顺序 前 进 法 逐个 加 入 特征 到 及 rz 个 ,然后 再 用 顺序 后 退 法 逐个 剔除 4 个 特征 。 

(2 MERE: 根据 达尔 文 的 生物 进化 论 , 自然界 中 的 每 个 个 体 不 断 对 环境 学 习 和 适应 ， 
然后 通过 交叉 方式 产生 新 的 后 代 , 这 就 是 基因 的 遗传 。 通 过 遗传 ,这 些 后 代 继承 了 双亲 的 优 
良 特 性 ,并 继续 对 环境 学 习 和 适应 。 基 因 突 变 发 生 在 交叉 之 后 ,有 利 的 变异 由 于 自然 选择 的 
作用 得 以 遗传 与 保留 ,而 有 害 的 变异 则 将 逐步 被 淘汰 。 遗 传 算法 是 一 种 模拟 生物 的 进化 过 
程 (遗传 .变异 和 自然 选择 ) 的 用 于 优化 的 搜索 算法 ,可 以 避免 出 现 局 部 极 值 。 遗 传 算法 遵循 
适 者 生存 、 优 胜 劣 汰 的 法 则 , 即 在 寻 优 过 程 中 将 有 用 的 特征 保留 ,去 除 宛 余 或 不 相关 的 特征 。 
由 于 遗传 算法 具有 良好 的 并 行 性 .通用 性 和 稳健 性 ,因此 它 在 特征 选择 领域 具有 广阔 的 应 用 
前 景 。 

下 面 介绍 遗传 算法 用 到 的 基本 术语 : 

基因 链 码 : 自然 界 的 生物 所 表现 出 的 各 种 性 状 是 遗传 基因 所 决定 的 ,生物 的 遗传 特性 
使 生物 界 的 物种 能 够 保持 相对 的 稳定 。 使 用 遗传 算法 解 特征 选择 问题 时 ,需要 把 问题 的 每 
一 个 解 编码 成 一 个 基因 链 码 。 基 因 链 码 是 对 多 个 基因 编码 所 得 到 的 字符 串 ,字符 串 的 每 一 
位 代表 一 个 基因 。 一 个 基因 链 码 就 代表 问题 的 一 个 解 ,相当 于 自然 界 中 的 个 体 。 简 单 的 编 
码 可 以 采用 二 进 制 形式 , 即 用 N 位 的 0,1 代 码 构成 的 字符 串 表示 一 个 特征 集合 ,其 中 数字 1 对 
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应 的 特征 被 选中 ,数字 0 对 应 的 特征 未 被 选中 。 

群体 : 许多 个 体 的 集合 构成 群体 。 个 体 代表 问题 的 一 个 解 , 群 体 则 是 问题 的 多 个 解构 成 
的 集合 。 

交叉 : 选择 群体 中 的 两 个 个 体 作为 双亲 ,在 配对 的 两 个 个 体 中 设置 截断 点 ,然后 交换 两 
个 个 体 的 信息 产生 后 代 个 体 。 简 单 的 交叉 方法 可 以 通过 随机 配对 产生 双亲 个 体 ( 对 应 两 个 
基因 链 码 ) 并 随机 选择 截断 点 ( 即 基因 链 码 中 的 某 一 位 ), 然 后 将 两 个 基因 链 码 在 截断 点 切 开 
并 交换 其 后 的 基因 链 码 ,从 而 组 合成 两 个 新 的 基因 链 码 , 也 就 是 双亲 个 体 通 过 交叉 繁殖 出 同 
样 数量 的 后 代 个 体 。 复 杂 的 交叉 方法 可 以 自行 设 定 截 断 点 和 双亲 个 体 ,无 论 使 用 何 种 交叉 
方法 都 以 培育 出 更 适应 环境 的 后 代为 最 终 目的 。 

变异 : 这 里 的 变异 沿用 了 生物 学 中 基因 突变 的 概念 ,生物 的 变异 特性 使 生物 个 体 产生 
新 的 性 状 , 最 终 积累 形成 新 的 物种 。 变 异 方法 是 针对 某 个 个 体 ( 即 一 个 基因 链 码 ) 随 机 选取 
某 个 基因 ( 即 基 因 链 码 的 某 个 位 点 ), 将 该 基因 进行 变异 操作 。 比 如 ,对 二 进 制 编码 得 到 的 基 
因 链 码 , 只 需 将 已 选 的 位 点 处 的 数字 从 1 换 成 0 或 者 从 0 换 成 1。 

适应 度 : 每 个 个 体 对 应 优化 问题 的 一 个 解 ,根据 优化 问题 的 目标 函数 ,对 应 每 个 解 求 得 
函数 值 。 如 果 优 化 问题 要 求 取 最 大 ,那么 使 函数 值 越 大 的 解 越 接近 最 优 解 , 也 就 是 表明 该 个 
体 对 环境 的 适应 度 越 高 。 

(3 )Tabu 搜 索 算 法 : Tabu 搜 索 算法 是 一 种 全 局 逐步 寻求 最 优 的 算法 ,该 算法 假定 一 个 解 
的 邻 域 中 往往 存在 性 能 更 好 的 解 。Tabu 搜 索 算法 应 用 于 特征 选择 中 时 , 解 的 性 能 高 就 是 指 
使 用 相应 的 特征 子 集 (或 特征 组 合 ) 的 分 类 效果 好 ,一 般 用 可 分 性 判 据 来 度量 。 该 算法 中 使 
用 了 “集中 ”和 “扩散 ”两 个 策略 ,局 部 搜索 过 程 体现 “集中 ”的 思想 ,也 就 是 从 一 点 出 发 ,在 
这 点 的 邻 域内 寻求 性 能 更 高 的 解 ,达到 局 部 最 优 解 而 结束 “扩散 ”的 思想 则 体现 在 跳出 局 
部 最 优 的 过 程 ,通过 设置 Tabu 表 来 实现 跳出 局 部 极 小 。Tabu 表 用 来 记录 近期 搜索 过 的 解 , 如 
果 一 个 解 在 Tabu 表 中 , 则 说 明 近 期 该 解 曾 被 访问 过 ,在 未 来 一 段 时 间 内 禁止 访问 该 解 ,这 种 
解 被 认为 处 于 休眠 状态 。Tabu 表 越 长 ,搜索 的 范围 越 广 泛 ,获得 性 能 较 高 的 解 的 可 能 性 越 大 。 
Tabu 算 法 通过 禁止 访问 Tabu 表 中 已 记录 的 解 而 实现 对 邻 域 之 外 更 大 区 域 的 搜索 ,最 终 能 够 
跳出 局 部 最 优 找到 性 能 更 高 的 解 。 在 一 些 情况 下 ,需要 将 Tabu 表 中 处 于 休眠 状态 的 解 激活 ， 
使 其 再 次 参与 搜索 过 程 。Tuba 算 法 的 过 程 决 定 了 得 到 的 最 终 解 是 在 所 有 搜索 过 的 解 中 的 最 
优 解 。 

(4) 模 拟 退 火 算法 : 模拟 退火 算法 得 益 于 对 统计 物理 中 国体 物质 的 结晶 过 程 的 研究 。 
固体 物质 内 部 粒子 的 不 同 结构 对 应 于 粒子 的 不 同 能 量 水平 。 在 高 温 条 件 下 ,粒子 的 能 量 较 
高 ,可 以 自由 运动 重新 排序 ,在 低温 条 件 下 ,粒子 能 量 较 低 。 在 升温 过 程 中 ,固体 物质 内 部 的 
粒子 随 温度 升 高 变 为 无 序 状 态 ,能 量 增 大 。 从 高 温 开始 缓慢 降温 的 过 程 称 为 “退火 "。 在 退 
火 过 程 中 ,粒子 逐渐 趋 于 有 序 ,粒子 在 每 个 温度 都 能 达到 热平衡 状态 。 当 固体 物质 被 完全 冷 
却 时 ,最 终 形成 处 于 低能 状态 的 晶体 。 

模拟 退火 是 模拟 物理 系统 退火 过 程 的 随机 迭代 寻求 最 优 的 算法 ,理论 上 具有 一 定 概率 
下 的 全 局 优化 性 能 。 假 设 要 解决 一 个 寻找 最 小 值 的 优化 问题 ,在 迭代 的 开始 阶段 ,搜索 过 程 
的 随机 性 很 大 ,除了 接受 优化 解 (使 目标 函数 值 变 小 的 解 ) 之 外 ,还 以 由 温度 相关 的 系数 来 控 
制 的 概率 接受 恶化 解 (使 目标 函数 值 增 大 的 解 )。 当 迭代 一 定 次 数 后 ,进入 下 一 个 迭代 阶段 ， 
此 时 算法 接受 恶化 解 的 概率 较 前 阶段 要 有 一 定 降低 。 如 此 不 断 迭 代 , 直到 达到 停止 准则 时 
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算法 终止 ,在 最 后 阶段 算法 将 不 接受 恶化 解 。 模 拟 退 火 算法 可 以 避免 陷入 局 部 极 小 值 ,得 到 
的 是 一 个 优化 解 , 并 且 它 可 能 是 全 局 最 优 解 ,但 是 不 能 保证 它 一 定 是 全 局 最 优 解 。 模 拟 退 火 
算法 在 应 用 于 特征 选择 中 时 ,首先 要 给 出 初始 温度 和 初始 特征 子 集 , 然 后 给 出 该 特征 子 集 的 
邻 域 和 温度 下 降 方 法 。 

3. 随机 搜索 与 完全 搜索 和 启发 式 搜索 不 同 ,随机 搜索 以 随机 的 方式 搜索 下 一 个 特征 
子 集 ,当前 的 子 集 不 是 根据 某 个 决策 规则 直接 增长 或 缩小 得 来 的 。 该 搜索 策略 计算 复杂 
较 高 ,但 是 通过 设置 迭代 次 数 在 一 定 程度 上 可 以 降低 复杂 度 。 


(三 ) 评价 准则 


评价 准则 通常 分 为 独立 标准 和 非 独立 标准 。 

1. 独立 标准 ”距离 相似 性 (或 相关 性 ) 和 互信 息 等 多 种 测度 都 可 以 作为 独立 标准 。 明 
氏 距 离 是 常用 的 距离 测度 , 明 氏 距离 通过 考查 基因 表达 值 向 量 的 距离 大 小 来 反映 基因 表达 
的 差异 。 理 想 的 分 类 效果 是 类 内 基因 之 间 的 距离 很 小 ,而 类 间 基 因 之 间 的 距离 很 大 。 相 关 
系数 常常 作为 评价 相似 性 的 测度 ,基因 与 类 别 的 相关 系数 反映 基因 与 类 别 之 间 的 相关 程度 。 
选择 的 特征 基因 与 类 别 的 相关 程度 应 大 于 其 他 基因 与 类 别 的 相关 程度 。 相 关系 数 可 以 分 为 
线性 相关 ,如 皮尔 森 相关 系数 ( pearson correlation coefficient ) 和 非 线 性 相关 ,如 斯 皮尔 曼 秩 相 
关系 数 ( spearman’ s rank correlation coefficient )。 此 外 ,信息 论 中 的 互信 息 指 标 也 可 用 来 评价 
基因 与 类 别 的 相关 程度 ,互信 息 越 大 说 明 该 基因 的 表达 模式 与 类 别 越 相 关 , 以 互信 息 最 大 化 
为 标准 可 以 用 来 评价 特征 基因 的 优 劣 (计算 公式 请 参考 本 章 第 四 节 )。 

2. 非 独立 标准 “以 分 类 正确 率 为 准则 的 标准 属于 非 独 立 标准 。 在 有 监督 学 习 中 ,分 类 
的 主要 目标 是 分 类 器 预测 正确 率 最 大 化 。 因 此 ,可 利用 分 类 器 的 预测 正确 率 作 为 特征 选择 
的 评价 标准 。 另 外 也 可 考虑 其 他 的 指标 ,如 泛 化 能 力 和 时 间 复 杂 度 。 这 里 的 泛 化 能 力 是 指 
利用 一 种 分 类 器 选择 出 的 特征 基因 适合 用 于 其 他 分 类 器 的 能 力 。 


(四 ) 停止 条 件 


由 于 所 有 特征 构成 的 可 能 的 特征 子 集 的 数量 很 大 ,考察 所 有 的 特征 子 集 通 常 不 可 实现 ， 
因此 需要 某 种 停止 搜索 的 条 件 , 例 如 : 和 迭代 次 数 、 特 征 子 集 评价 标准 达到 阔 值 或 不 再 继续 提 
高 等 。 一 个 较 优 的 停止 条 件 是 到 达 搜 索 终 点 时 ,选择 的 子 集 为 最 优 特征 子 集 。 








二 、 特 征 选择 方法 的 分 类 >>> 


目前 ,特征 选择 方法 主要 分 为 三 类 : 过 滤 法 ( filter method )、 缠 绕 法 ( wrapper method ), fi 
组 法 ( embedded method )。 在 过 滤 法 中 ,特征 选择 过 程 独立 于 分 类 算法 ,利用 一 些 独立 的 评 
价 标准 预先 完成 特征 子 集 选 择 , 然 后 再 进行 分 类 器 的 归纳 学 习 , 该 方法 通常 是 对 单 基因 进行 
逐一 评价 ,如 统计 检验 、 互 信息 等 。 过 滤 法 在 应 用 过 程 中 鲁 棒 性 强 , 运 行 速度 快 。 缠 绕 法 中 
特征 选择 过 程 与 分 类 算法 绑 定 ,将 分 类 算法 的 效能 作为 人 选 特 征 基 因子 集 的 评价 准则 ,由 于 
选择 的 特征 基因 子 集 能 够 与 分 类 器 的 决策 机 制 很 好 地 吻合 ,因此 ,对 检验 样本 的 划分 可 获得 
较 高 的 准确 率 。 灸 绕 法 则 是 特征 选择 过 程 与 分 类 过 程 并 行 的 一 类 特殊 方法 ,在 构建 分 类 器 
的 同时 进行 特征 基因 选择 ,决策 树 算法 是 常见 的 镶嵌 式 特征 选择 方法 。 
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(一 ) 过 滤 法 


过 滤 法 是 机 器 学 习 中 进行 特征 选择 最 早 使 用 的 方法 ,所 有 的 过 滤 法 都 只 依赖 数据 本 身 
的 内 在 结构 信息 而 不 依赖 分 类 算法 对 特征 子 集 的 评价 ,不 考虑 所 选 的 特征 子 集 对 分 类 器 性 
能 的 影响 ,也 就 是 说 ,在 分 类 算法 运行 之 前 进行 特征 选择 ,二 者 相互 独立 。 我 们 可 以 根据 需 
要 选择 特征 集合 ,比如 ,使 特征 之 间 的 相关 度 尽 可 能 低 ,此 种 方法 适合 较 大 的 数据 集 。 过 滤 
法 由 于 与 分 类 算法 相互 独立 ,不 考虑 特征 子 集 对 分 类 器 分 类 效能 的 影响 ,所 选 出 的 特征 子 集 
分 类 性 能 一 般 弱 于 缠绕 法 。 

/检验 法 该 方法 运用 统计 学 上 传统 的 检验 寻找 在 两 类 间 特 征 值 有 差异 的 特征 ,应 用 于 
基因 表达 谱 分 析 中 ,就 是 寻找 疾病 和 正常 状态 之 间 差 异 表达 的 基因 ,这 些 基 因 就 是 特征 基 
因 。: 检 验 法 首先 计算 每 个 基因 ;的 统计 量 记 


Xa 7 Xn 


t == 
si s ( as ) 
qe 


n n, 


其 中 x Mx, 分 别 表示 基因 在 第 一 类 和 第 二 类 样本 中 表达 水 平 的 均值 , su 和 sz 分 别 是 第 一 
类 和 第 二 类 样本 中 基因 ;表达 水 平 的 标准 差 , n, 和 n, 分 别 是 两 类 中 样本 的 数目 。 然 后 根据 统 
计量 :得 出 相应 的 假设 检验 的 概率 p 值 。 由 于 对 涉及 的 多 个 基因 进行 了 多 次 假设 检验 , 1 类 
错误 率 上 升 ,所 以 要 对 所 得 的 p 值 进行 多 重 检验 校正 。 常 用 的 多 重 检验 校正 方法 有 Bonferroni 
校正 、FDR 等 。 


(二 ) 缠绕 法 


缠绕 法 依赖 于 特定 分 类 器 ,将 分 类 算法 能 入 特征 选择 过 程 中 ,以 分 类 正确 率 为 评价 准 
则 ,通过 一 定 的 搜索 策略 识别 优化 的 特征 基因 子 集 。 缠 绕 法 计算 量 较 大 ,适合 较 小 的 数据 集 。 
与 过 滤 法 相 比 ,由 于 特征 选择 的 结果 由 分 类 器 的 正确 率 来 评价 ,因此 ,缠绕 法 能 够 将 所 选 的 
特征 与 分 类 器 的 决策 进行 较 好 地 结合 ,通常 可 以 实现 分 类 准确 率 最 大 化 。 

遗传 算法 与 支持 回 量 机 耦合 的 特征 选择 方法 ( genetics algorithm-support vector machine, 
GA-SVM ) 是 一 种 典型 的 缠绕 法 ,其 采用 遗传 算法 作为 搜索 策略 ,以 支持 向 量 机 分 类 器 的 效 
能 作为 特征 子 集 优 劣 的 评价 准则 。 该 算法 是 个 递归 的 过 程 ,对 亲 代 进行 遗传 操作 产生 后 代 。 
在 这 种 方式 下 ,优良 的 特征 基因 子 集 ( 即 提高 SVM 分 类 正确 率 的 特征 基因 子 集 ) 不 断 被 “ 进 
化 " ,直到 遇 到 停止 条 件 。 其 中 ,特征 基因 子 集 的 编码 群体 的 初始 化 、 适 应 度 计 算 .遗传 操作 、 
控制 参数 的 设 定 (群体 大 小 ,最 大 迭代 数 等 ) 是 GA-SVM 的 核心 内 容 。 此 外 ,选用 不 同 的 搜索 
算法 和 分 类 算法 ,缠绕 法 特征 选择 方法 还 有 许多 ,如 基于 遗传 算法 和 Ki 近邻 耦合 的 特征 选择 
方法 ( genetic algorithm and the k-nearest neighbor, GA-KNN ), 支持 向 量 机 -递归 特征 消除 法 
( support vector machines—recursive feature elimination, SVM-RFE ) 等 。 

Li 等 人 利用 GA-SVM 方 法 分 析 了 弥漫 性 大 B 细 胞 性 淋巴 瘤 ( diffuse large B-cell lymphoma, 
DLBCL ) 相关 的 基因 芯片 数据 ,识别 区 分 DLBCL 两 个 亚 型 生发 中 心 B 细 胞 DLBCL( GCB-like 
DLBCL ) 和 活化 B 细 胞 DLBCL( AB-like DLBCL ) 的 特征 基因 子 集 。 基 因 表 达 谱 包括 21 个 
GCB-like DLBCL 样 本 和 21 个 AB-like DLBCL 样 本 ,以 及 4026 个 经 过 预 处 理 的 基因 。 在 该 研究 
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中 ,特征 子 集 被 编码 为 二 进 制 串 , 串 中 每 个 位 置 的 /0 表示 该 位 置 代表 的 基因 在 特征 子 集 中 
出 现 /不 出 现 。 每 个 特征 子 集 表示 一 个 个 体 ,初始 群体 的 大 小 设 为 40, 在 随机 生成 初始 群体 
时 ,为 了 保留 较 多 具有 分 类 信息 的 基因 ,初始 群体 中 每 个 个 体 包含 大 约 1/2 的 全 部 基因 。 以 
每 个 个 体 所 包含 的 基因 为 特征 构建 支持 向 量 机 分 类 器 ,以 分 类 正确 率 作 为 适应 度 指标 评价 
个 体 的 好 坏 。 该 方法 通过 生存 竞争 实现 特征 子 集 的 优化 ,首先 为 避免 每 一 代 中 的 最 优 解 丢 
失 , 保 留 前 50% 的 优良 个 体 直接 进入 下 一 代 ; 然后 ,通过 随机 进行 交叉 和 变异 产生 下 一 代 的 
另外 50% 的 个 体 。 为 了 找到 具有 代表 意义 的 较 小 的 特征 基因 子 集 , 因 此 采用 逐步 缩小 特征 
基因 数目 的 方法 : 在 上 一 轮 执行 完成 的 基础 上 把 最 优 个 体 对 应 的 表达 谱 子 矩阵 作为 新 的 研 
究 对 象 ,重复 执行 上 述 过 程 进行 迭代 ,直到 分 类 的 准确 率 下 降 小 于 0.001 且 选 出 的 特征 数 不 
再 变化 为 止 。 该 研究 共 迭 代 了 12 次 ,特征 基因 数目 的 变化 为 : 4026,1995,984,504,256,132, 
70,41,25,18,13,7, 最 终 得 到 了 由 7 个 基因 ( CYSLTRI , MME, D13S2489E, PIK3CG, SHMT2, 
Hs.348293 , Hs.291994 组 成 的 优化 的 特征 基因 子 集 。 该 方法 的 流程 图 如 图 2-14 所 示 。 最 后 ， 
作者 又 将 GA-SVM 方 法 与 其 他 的 特征 选择 方法 ( 检验 、GA-KNN 等 ) 进 行 了 比较 ,在 多 种 分 
类 器 下 , CA-SVM 选 取 的 特征 子 集 的 分 类 贡献 均 高 于 其 他 的 基因 子 集 ( 图 2-15 )。 





(4)retain N/2 individuals(D7) 









(2)initial population(Do) 
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IA Al FA BEA NAJELA FP IE PED BE IK ,将 分 类 和 特征 选择 同时 进行 。 
以 决策 树 算法 为 例 ,这 种 算法 用 树 型 结构 来 表示 分 类 规则 。 决 策 树 的 构建 就 是 进行 特征 选 
择 的 过 程 。 使 用 决策 树 进行 决策 的 过 程 就 是 从 根 节点 开始 ,测试 待 分 类 样本 中 相应 的 特征 
属性 ,并 按照 属性 值 选择 输出 分 支 ,直到 到 达 叶 子 节点 为 止 ,将 叶子 节点 所 代表 的 类 别 作 为 
最 终 样本 的 分 类 ,在 分 类 器 构建 的 过 程 中 ,每 一 个 非 叶 子 节点 上 用 于 对 样本 进行 分 类 的 基因 
组 合 起 来 就 构成 了 特征 基因 子 集 。 常 用 的 决策 树 算 法 有 CART ID3 和 C4.5 等 。 

Li 等 人 提出 了 一 种 基于 递归 决策 树 特 征 基因 选择 的 集成 方法 ,在 构建 决策 树 分 类 器 的 


图 2-14 GA-SVM 算 法 流程 图 
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图 2-15 特征 选择 方法 的 比较 
同时 进行 特征 选择 ,该 方法 成 功 应 用 于 结肠 癌 基 因 蕊 片 ( 40 个 肿瘤 组 织 和 22 个 正常 组 织 中 的 
2000 个 人 类 基因 的 表达 水 平 ) 数 据 分 析 中 。 该 方法 的 基本 思路 是 首先 分 别 将 结肠 癌 和 正常 
组 织 样本 随机 分 为 近似 大 小 的 5 个 不 重 蕉 子 集 , 即 结肠 癌 子 集 D,( i=1,2，…,5 ) 和 正常 组 织 
子 集 NN,( i=1,2,，…,5 ), Di 和 NX 的 一 个 随机 配对 构成 一 个 检验 集 , 剩 余 的 所 有 样本 构成 一 个 
训练 集 , 这 样 一 次 抽样 可 产生 25 个 训练 集 和 检验 集 对 ,重复 该 过 程 20 次 , 共 获 得 500 对 训练 集 
和 检验 集 对 。 在 每 对 数据 集 上 执行 一 次 特征 基因 识别 过 程 : 基于 训练 集 构建 决策 树 分 类 器 ， 
每 个 非 叶 子 节点 上 的 基因 构成 特征 基因 子 集 Ce={g ^. g^. cs gx}( d= 1,2，…,500 ), 并 利 
用 检验 集 进行 分 类 效能 评价 。 这 样 就 得 到 了 一 系列 特征 基因 子 集 Gl,，…, Gy, 7+, Goons A 
后 计算 每 个 基因 在 所 有 这 些 子 集中 出 现 的 加 权 频 率 值 ( 权 值 可 定义 为 分 类 器 的 正确 率 ) FV, 
为 了 得 到 具有 统计 学 显著 性 的 特征 基因 ,作者 将 样本 的 类 别 进行 随机 扰动 ,重复 上 述 过 程 ， 
计算 在 随机 情况 下 基因 的 加 权 频 率 值 FF ,构建 随机 分 布 ,对 应 于 显著 水 平 0.01 的 经 验 阔 值 
0.035, 记 作 FF ^, = 0.035 ( B= 0.01 ), 保 留 那 些 FV 值 大 于 FV "的 基因 作为 特征 基因 ,最 终 共识 
别 出 20 个 基因 构成 了 优化 的 特征 基因 子 集 。 该 研究 的 结果 表明 基于 决策 树 的 特征 基因 选择 
方法 能 够 有 效 识别 复杂 疾病 相关 基因 。 


三 .应 用 举例 >> 


基因 芯片 数据 分 析 中 常见 的 差异 表达 基因 识别 方法 可 以 归 为 特征 选择 中 的 过 滤 法 。 基 
因 芯 片 显 著 性 分 析 ( significance analysis of microarray, SAM ) 是 目前 使 用 较为 广泛 的 差异 表 
达 基 因 分 析 软 件 。SAM 通 过 计算 每 个 基因 的 统计 量 D 值 ,寻找 对 疾病 有 鉴别 力 的 基因 。SAM 
是 一 个 Excel 的 插件 ,安装 成 功 后 以 加 载 项 的 形式 出 现在 Excel 菜 单 栏 中 ,在 此 ,以 上 面 已 经 进 
行 过 预 处 理 、 标 准 化 的 基因 芯片 数据 CSE5281 中 的 内 侧 杜 回 区 域 的 基因 表达 谱 为 例 介绍 该 
软件 实现 差异 表达 分 析 的 过 程 。 由 于 这 是 一 个 两 类 非 配对 样本 的 问题 ,因此 ,应 当 以 如 下 格 
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式 准备 数据 文件 : 第 一 行为 类 别 标签 ,1 代表 正常 ,2 代表 疾病 ; 第 一 列 是 基因 Entrez ID ,第 二 
列 是 基因 Symbol ,其 余 列 为 表达 值 ; 还 需要 注意 前 两 列 首 行 应 为 空 。 

首先 ,要 将 经 过 预 处 理 的 表达 谱 数 据 GSE5281 用 Excel 打 开 并 选中 所 有 数据 ,在 Excel 羔 
单 栏 的 加 载 项 中 找到 SAM ,运行 SAM 得 到 设 定 SAM 方 法 所 需 参 数 的 界面 ,如 图 2-16。 这 里 
我 们 选择 两 类 非 配对 样本 做 统计 检验 ,由 于 表达 谱 数 据 已 进行 取 log 值 的 处 理 , 因 此 在 “Are 
data in log scale ? ”后面 要 选中 “Logged ( base 2 ,选择 随机 100 次 以 获得 统计 量 D 相 应 的 p 值 ， 
按照 不 同 需要 可 以 选择 更 大 的 随机 次 数 , 其 余 参 数 可 选择 默认 值 ,点 击 “OK” 即 可 继续 运行 ， 
弹出 SAM Plot Controller 窗 口 如 图 2-17。 


Significance Analysis of Microarrays 
(C) Trustees of Leland Stanford Junior University 
All Rights Reserved À 






Survival 
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nea s aider (* Automatic © Use fixed percentile (eg 50) 


Imputation Engine ^ /; K-Nearest Neighbors Imputer Number of Neighbors — | 10 
Random Number Seed 1234567 
Generate Random Seed | 
news em | 


图 2-16 SAM& RES 


接 下 来 ,在 SAM Plot Controllerfzi 138 i XE Fold Change 值 和 delta 值 来 控制 差异 表达 分 析 
的 结果 。 点 击 “List Delta Table” 可 以 获得 delta 值 与 FDR 值 的 对 应 关系 。 在 此 ,我 们 找到 FDR 
为 0.01 时 对 应 的 delta 值 为 0.68。 然 后 ,通过 滑动 滑 块 或 手动 输入 delta 值 ,点 击 “List Significant 
Genes” 就 得 到 了 FDR 小 于 0.01 的 差异 表达 基因 ,本 例 共 选 出 了 2209 个 在 阿尔 茨 海 默 病 病 人 
和 正常 人 脑 组 织 中 表达 发 生 显著 改变 的 基因 。 此 外 , SAM 还 以 图 形 化 方式 “SAM Plot” 对 结 
果 进 行 展示 (图 2-18 ), 其 中 显示 了 差异 表达 基因 的 期 望 得 分 与 观察 得 分 的 关联 关系 ,上 调 基 
因 用 红色 标识 ,下 调 基因 用 绿色 标识 。 
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图 2-17 SAM Plot Controller® v 
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图 2-18 SAM Plot 





第 四 节 
基因 必 片 数据 的 聚 类 分 析 


Section 4 Clustering of Microarray Data 


聚 类 分 析 ( cluster analysis ) 是 基于 研究 对 象 属性 的 相似 性 ,对 研究 对 象 进行 分 组 的 一 种 
方法 。 其 目标 是 使 组 内 样本 相似 ,组 间 样 本 有 差异 。 组 内 样本 相似 性 越 大 ,组 间 样 本 差异 越 
显著 , 聚 类 效果 就 越 好 。 

对 于 基因 必 片 数据 来 说 ,可 以 从 如 下 两 个 方面 进行 聚 类 分 析 : 第 一 ,对 样本 进行 聚 类 ， 
即 研究 对 象 为 样本 ,属性 为 基因 ,基因 表达 相似 的 样本 聚 为 一 类 。 在 人 类 癌症 的 研究 中 ,对 
样本 进行 聚 类 主要 应 用 于 瘤 证 亚 型 的 识别 ,由 于 肿瘤 异 质 性 的 存在 , 即 临床 表 型 相同 的 肿瘤 
往往 具有 不 同 的 分 子 机 制 , 因 此 利用 基因 芯片 数据 对 肿瘤 样本 进行 聚 类 ,有 助 于 从 分 子 层面 
识别 肿瘤 新 的 亚 型 ,为 肿瘤 患者 的 个 性 化 诊疗 提供 重要 参考 。 第 二 ,对 基因 进行 聚 类 , 即 研 
究 对象 为 基因 ,属性 为 样本 ,在 样本 空间 中 表达 模式 相似 的 基因 聚 为 一 类 ,同一 类 的 基因 往 
往 具 有 功能 上 的 一 致 性 , 即 参 与 相同 的 代谢 通路 或 者 编码 同一 个 蛋白 质 复合 物 等 。 

聚 类 分 析 中 最 主要 的 两 个 要 素 是 评价 研究 对 象 属性 相似 性 程度 的 距离 (或 相似 性 ) 尺 
度 ( distance scale ) 和 将 研究 对 象 分 组 的 聚 类 算法 ( clustering algorithm )。 


一 、 聚 类 分 析 中 的 距离 (相似 性 ) 尺度 函数 >> 

距离 (相似 性 ) 尺 度 函 数 是 评价 研究 对 象 相似 性 程度 的 函数 。 常 用 的 表达 相似 性 尺度 
有 几何 距离 线性 相关 系数 . 非 线性 相关 系数 和 互信 息 等 。 

(一 ) 几何 距离 


几何 距离 可 以 衡量 研究 对 象 在 空间 上 的 距离 ,空间 上 相近 的 物体 可 以 运用 几何 距离 判 
断 为 同一 类 ,而 空间 上 较 远 的 物体 判断 为 不 同类 。 
常见 的 几何 距离 是 明 氏 距离 : 


d(x,y) -iYl X, — y, dr ( 2-6) 


其 中 x 和 y 为 样本 向 量 或 基因 向 量 , xi 和 yi 为 对 应 的 第 个 分 量 , 明 氏 距离 通过 考查 各 分 量 
的 差异 来 衡量 两 物体 的 距离 大 小 。 
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当 4=1 时 , 明 氏 距离 为 马 氏 距离 ( Manhattan ); 
当 4=2 时 , 明 氏 距离 为 欧式 距离 ( Eulidean ); 
当 4=o 时 , 明 氏 距离 为 切 氏 距离 ( Chebyshev ), 即 
d(x, y) = max, | x, — y, | (2-7) 


明 氏 距离 在 评价 两 物体 的 相似 性 时 ,没有 考虑 到 不 同 分 量 量 纲 差异 对 结果 的 影响 ,所 以 

用 明 氏 距离 作 相似 性 尺度 时 ,应 该 先 对 数据 进行 标准 化 处 理 , 以 消除 不 同 分 量 之 间 的 量 纲 差 
异 。 db a egg d 

jx eed (2-8) 


rix; y; | 


(=) 线性 相关 系数 


当 基 因 表达 数据 是 一 系列 具有 相同 变化 趋势 的 数据 时 ,运用 几何 距离 会 丢失 重要 的 信 
息 。 图 2-19 中 描述 了 三 个 基因 在 五 个 时 间 点 的 表达 水 平 波动 情况 ,如 果 用 几何 距离 衡量 , 则 
基因 2 和 基因 3 相似 性 高 ,而 基因 1 与 基因 2 和 基因 3 相距 较 远 会 判断 为 相似 性 低 。 然 而 ,基因 1 
的 表达 水 平 在 不 同时 间 点 与 其 他 两 基因 具有 相似 的 波动 趋势 和 波动 幅度 ,通常 这 种 在 不 同 
时 间 点 或 样本 中 表达 模式 相似 的 基因 也 有 可 能 具有 功能 上 的 相关 性 ,但 是 用 欧 氏 距离 可 能 
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图 2-19 三 个 基因 在 五 个 时 间 点 的 表达 值 波动 图 


就 会 忽略 这 种 具有 生物 学 意义 的 基因 相关 关系 。 
这 时 ,一般 采用 皮尔 森 相关 系数 ( pearson correlation coefficient ) 来 衡量 基因 表达 模式 的 


相似 性 。 公 式 如 下 : 
_1 * x-x y,-y 
ais (a ja | (2-9) 


其 中 x 为 基因 向 量 x 的 期 望 值 , c 为 xz 的 标准 差 ; ?为 基因 向 量 ? 的 期 望 值 , c 为 ?的 标准 差 ， 
7 为 向 量 x 的 维 数 ,即时 间 点 或 样本 的 个 数 。 
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(=) 非 线 性 相关 系数 

在 实际 问题 中 可 能 存在 这 样 的 基因 ,它们 在 表达 上 不 具有 严格 的 线性 相关 关系 ,但 是 波 
动 趋势 却 相 同 , 即 具 有 同 升 或 同 降 的 变化 趋势 。 在 这 种 情况 下 可 以 用 非 线 性 相关 模式 来 衡 
量 基因 间 的 距离 。 

非 线 性 相关 模式 一 般 用 斯 皮尔 曼 秩 相关 系数 ( spearman’s rank correlation coefficient ) 进 


行 衡量 : 
69 \d? 
= 1 e C —M—9À = 
y n(n? -1) (2-10) 
其 中 4 为 每 对 观察 值 xi 与 yi 的 秩 次 之 差 , n 为 时 间 点 或 样本 的 个 数 。 
(四 ) 互信 息 


线性 与 非 线性 相关 系数 都 只 能 衡量 基因 间 的 单调 相关 关系 ,而 对 于 那些 在 前 阶段 正 相 
关 ( 负 相关 ) 后 阶段 负 相关 ( 正 相关 ), 即 具有 非 单调 性 特点 的 两 个 基因 来 说 则 不 适用 。 对 于 
这 种 相似 关系 ,可 以 用 互信 息 来 度量 : 
y=H(x)-H(x|y) (2-11) 
Here Hx) RRR, H(xly ) ERRER MAy A B BIOS e E, A E 
方式 表示 如 下 : 


H(x\y,)=->, p(x | y,)log p(x, | y,) (315) 
I=) 
H(x|y)- -CMY p(y, p(x% ly, Jog p(x y;) (2-13) 
Pal Je) 


其 中 , p 表 示 概 率 密度 函数 ,可 以 由 频数 估计 ; n 和 m 分 别 为 离散 化 x 和 y 时 的 离散 化 单位 。 

在 计算 互信 息 时 采用 的 离散 化 方式 会 造成 一 定 的 信息 损失 ,一 般 离散 化 单位 的 估计 由 向 量 x 
和 y 的 长 度 决 定 。 

n<log, size( x ) (2-14) 

m x log, size( y ) (2-15) 


二 、 常 用 的 聚 类 方法 >> 


(一 ) BBR 


/的 值 聚 类 ( k-means clustering ) 是 根据 对 象 的 均值 进行 聚 类 划分 的 分 割 算 法 ,适用 于 各 
种 数据 类 型 , 受 初始 化 问题 的 影响 较 小 ,算法 简单 ,运算 速度 快 。 

/的 值 聚 类 的 具体 分 析 流 程 如 下 : 

1. 初始 化 类 中 心 , 随 机 选择 t 个 初始 质心 ,其 中 十 自 定义 参数 ,表示 所 期 望 篮 ( 类 ) 的 
个 数 。 
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2. 计算 每 个 对 象 与 质心 的 距离 ,将 每 个 样本 指派 到 距离 最 近 的 质心 ,指派 到 一 个 质心 的 
对 象 组 成 一 个 簇 。 

3. 重新 计算 每 个 簇 的 样本 均值 ,作为 更 新 后 簇 的 质心 。 

4. 重复 2~3 步 ,直到 每 个 簇 不 再 发 生变 化 为 止 。 

需要 指出 的 是 ,在 实际 应 用 中 大 部 分 收敛 都 发 生 在 早期 阶段 ,通常 使 用 较 弱 的 终止 条 件 
结束 该 算法 ,因此 ,步骤 4 可 改 为 “直到 仅 有 1% 的 点 改变 簇 ” 为 止 。 

图 2-20 举 例 说 明了 Kk 均 值 的 聚 类 过 程 ,从 3 个 质心 出 发 ,通过 4 次 指派 和 更 新 , 找 出 最 后 的 
徐 。 其 中 ,质心 用 符号 “+” 表 示 , 属 于 同一 个 簇 的 所 有 点 具有 相同 形状 的 标记 。 
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图 2-20 /均值 聚 类 过 程 示意 图 


均值 聚 类 可 以 看 作 是 优化 问题 ,其 优化 目标 是 使 类 内 样本 两 两 间 的 距离 之 和 最 小 , 通 
常 表示 为 : 
le 2 
w(C)== ds (XX 2 
(C) TRN (xx) (2-16) 
其 中 , k 表 示 簇 的 个 数 , CRRA, AE T APR, C(i) 和 C(j) 
分 别 是 样本 x; 和 x 的 类 别 , dy 表示 两 个 样本 的 欧 氏 距离 。 
均值 聚 类 算法 的 结果 依赖 于 初始 质心 的 选取 ,不 同 的 质心 将 可 能 产生 不 同 的 聚 类 结 
构 。 为 了 克服 这 个 问题 ,可 以 采用 多 个 初始 化 方式 , 选 出 具有 最 小 w( € ) 的 聚 类 结果 作为 最 
佳 的 类 结构 。 另 外 ,Kk 均值 聚 类 需要 预先 指定 类 别 个 数 ,但 是 由 于 是 无 监督 学 习 方法 ,在 实际 
应 用 中 一 般 不 知道 真实 的 类 别 个 数 , 一 些 启发 式 的 方法 可 以 帮助 确定 kK 的 取 值 。 例 如 ,假设 
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有 6 个 研究 对 象 , 则 遍历 6 个 对 象 可 能 的 聚 类 类 别 数 ,计算 各 个 情况 下 的 w( C ), 选 择 w( C ) 下 
降 最 快 时 的 K 值 作为 最 佳 类 别 数 。 

(=) 层次 聚 类 

层次 聚 类 ( hierarchical clustering ) 是 男 一 种 常用 的 聚 类 方法 ,常常 使 用 系统 树 图 ( dendrogram ) 
的 方式 表示 ,如 图 2-21 所 示 : 

层次 聚 类 的 方法 可 以 分 为 两 类 ,分别 为 凝聚 法 和 分 裂 法 。 

凝聚 法 (agglomerative ) 是 一 种 自 下 而 上 的 聚 类 方法 ,从 单个 
点 作为 个 体 簇 开 始 ,每 一 步 合 并 两 个 最 邻近 的 得。 

分 裂 法 (divisive ) 是 一 种 自 上 而 下 的 聚 类 方法 ,从 一 个 包含 所 
有 点 的 簇 开始 ,每 一 步 分 裂 一 个 艇 ,直到 仅 剩 下 单 点 簇 为 止 。 

目前 ,凝聚 法 层次 聚 类 技术 使 用 最 为 普遍 ,其 计算 步骤 如 下 : 

1. 计算 邻近 度 和 矩阵 。 

2. 合并 距离 最 近 的 两 个 簇 。 

3. 更 新 邻近 度 矩 阵 ,以 反映 新 的 徐 和 原来 的 簇 之 间 的 相似 性 。 

4. 重复 过 程 2~3 ,直到 仅 剩 下 一 个 徐 为 止 。 

层次 聚 类 算法 的 关键 操作 是 计算 两 个 复 之 间 的 邻近 度 。 常 用 pl p2 p3 onm 
的 类 间 度 量 方法 有 : 最 小 距离 ( single linkage 人 最 大 距离 ( complete ”图 2_21 ”层次 聚 类 的 系统 
linkage ) 平 均 距 离 ( average linkage ) 和 质心 距离 ( centroid linkage ). 树 图 
如 图 2-22 所 示 , 最 小 距离 以 两 类 间距 离 最 近 的 两 点 之 间 的 距离 作 
为 两 类 的 距离 ; 最 大 距离 以 两 类 间距 离 最 远 的 两 点 之 间 的 距离 作为 两 类 的 距离 ; 平均 距离 
则 是 遍历 两 类 中 所 有 两 两 点 之 间 的 距离 ,然后 取 平 均值 作为 两 类 的 距离 ; 质心 距离 首先 分 别 
确定 两 类 的 质心 ,然后 以 质心 间 的 距离 作为 两 类 的 距离 。 





最 小 距离 


最 大 距离 


平均 距离 


质心 距离 





图 2-22 类 间 相 似 性 度量 的 方法 
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下 面 以 一 个 例子 说 明 自 下 向 上 的 层次 聚 类 算法 过 程 , 该 实例 采用 欧 氏 距离 衡量 样本 间 


的 相似 性 。 
1. 设 有 五 个 样本 A、B、C、D、E, 每 个 样本 自 成 一 类 ,运用 欧 氏 距离 计算 它们 两 两 之 间 的 


相似 性 ,得 出 邻近 度 矩 阵 , 此 处 为 距离 矩阵 。 









HOOG T S DA E 


2. 由 于 A 与 C 样 本 的 距离 最 小 ,最 先 合 并 A 与 C 样 本 。 


四 四 四 四 加 四 
PL espe s] 
DINNER 
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3. 合并 后 类 别 为 三 类 ,调整 距离 矩阵 , 即 分 别 运 用 最 小 距离 法 计算 B 样 本 、D 样 本 、E 样 
本 与 AC 类 的 距离 ,基于 新 的 距离 矩阵 ,合并 AC 与 D 样 本 。 





4. 继续 调整 矩阵 ,合并 距离 最 近 的 B 样 本 与 E 样 本 。 


5. 合并 ACD 类 与 BE 类 ,最 后 得 到 系统 树 图 。 
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三 、 应 用 实例 >>> 


Cluster 是 聚 类 分 析 常 用 的 软件 之 一 ,可 以 在 多 个 平台 上 使 用 ,包括 Windows、Linux/Unix 
和 Mac OS X。Cluster 既 提供 图 形 用 户 界 面 ,也 可 以 输入 命令 行进 行 操作 。 下 面 以 Cluster 3.0 
为 例 ,介绍 该 软件 的 使 用 方法 。 

Cluster 3.0 可 以 实现 多 种 聚 类 方法 ,包括 层次 聚 类 、/ 的 值 聚 类 、 自 组 织 映射 (sel 仁 
organizing map, SOM ) 聚 类 ,还 可 以 实现 主 成 分 分 析 。 这 里 以 2209 个 在 阿尔 茨 海 默 病 和 正常 
组 织 中 差异 表达 的 基因 为 属性 ,通过 聚 类 将 基因 表达 谱 以 热 图 ( heat map ) 的 方式 显示 出 来 。 
需要 特别 指出 的 是 , 聚 类 分 析 是 无 监督 学 习 方法 ,通常 是 根据 数据 的 内 部 特点 将 样本 类 别 未 
知 的 数据 进行 归 类 ,这 里 选择 通过 类 别 已 知 的 样本 识别 的 差异 表达 基因 为 例 ,仅仅 是 为 了 更 
好 地 展示 数据 ,并 介绍 软件 的 使 用 步 又 。 

第 一 步 ,打开 Cluster 3.0 软 件 , 界 面 如 图 2-23 所 示 : 





Rows 
Columns 


| Data set has 
Fiter Data | Adjust Data | Hierarchical | kMeans | SOMs | PCA | 
ii 
| F % Present >= [| e 
[ SD (GeneVecta} | ^ 20 
| f" Atleast [1 observations with abstVa)>=[ 20 
| [ MaWa-MiWab»- | —— 20 
| Dx. 





图 2-23 Cluster 3.05% & 
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第 二 步 ,文件 的 导入 
点 击 “File” 按钮 ,选择 “Load data file” 选 项 ,将 前 面 章节 中 处 理 得 到 的 GSE5281 差 异 表 
达 基 因 及 相应 的 表达 值 导入 Cluster 3.0 中 ,结果 如 下 (图 2-24 ): 


Geme L 
Eile 


| File loaded pem 


Job name [GSE5281 MTG DEG 


2209 Rows 


Data set has 28 


Fiter Data | Adjust Data | Hierarchical | k-Means | SOMs | PCA | 

-Fher Genes ———————————— ———— ——————————À4 
[^ % Present >= 六 上 
- [^ SD (Gene Vector) | o 20 

| PR observations with abs(Va) >= 20 

厂 MawWal-MiValy= | 20 














图 2-24 Cluster 3.0 文 件 导 入 


第 三 步 , 数 据 的 校正 

由 于 数据 已 经 经 过 预 处 理 , 因 此 这 里 不 再 对 数据 进行 过 滤 及 标准 化 。 为 了 更 好 地 反映 
出 各 样本 中 基因 表达 值 相对 于 基因 平均 表达 值 的 高 低 ,需要 对 数据 进行 Center 处 理 ,即将 基 
因 表 达 值 减 去 其 所 在 行 、 列 的 基因 表达 的 均值 或 中 值 。 点 击 “Apply 运 行 ”。 运 行 完毕 后 可 以 
将 运行 结果 保存 。 点 击 “File” 按 钮 ,选择 “Save data file” 选 项 ,选择 文件 路 径 , 可 以 将 校正 
结果 保存 。 具 体操 作 如 图 2-25 所 示 : 

第 四 步 , 聚 类 分 析 

数据 校正 后 ,选择 “Hierarchical ”选项 。 该 软件 可 以 实现 双向 聚 类 “Cenes” 是 对 基因 
进行 聚 类 “Arrays” 是 对 样本 进行 聚 类 。 这 里 在 此 对 数据 进行 双向 聚 类 ,两 种 状态 下 都 点 
选 “Cluster” 选 项 。 下 一 步 需 要 指定 相似 性 矩阵 ( aimilarity Matrix ) 的 计算 方法 。Cluster 3.0 
提供 八 种 相似 性 矩阵 的 计算 方法 ,包括 皮尔 森 相 关系 数 ( pearson correlation coefficient )、 斯 皮 
尔 曼 秩 相关 系数 ( spearman's rank correlation coefficient ) 欧 式 距 离 等 ,这 里 我 们 选择 默认 值 
"Correlation ( uncentered 六 , 即 用 皮尔 森 相 关系 数 来 计算 相似 性 矩阵。 最 后 ,需要 选择 类 间距 
离 的 度量 方法 (图 2-26 )。 该 软件 给 出 四 种 度量 方法 ,分 别 是 质心 距离 .最 小 距离 .最 大 距离 
和 平均 距离 ,在 此 我 们 选择 质心 距离 的 方法 对 数据 进行 聚 类 ,参数 选择 如 图 2-26 所 示 : 


=X, 


\ 
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\GEO\GSES281_MTG_DEG.bd 


Jobname [BsES281 MTG DEG 


2209 Rows 
28 Columns 


| Data set has 


Fiter Data Adust Data | Hierarchical | kMeans | SOMs | PCA | 





Job name [gsEs281 MTG DEG 


2209 Rows 
28 Columns 


Data set has 
Fiter Data | Adust Data Hierarchical | k Means | SOMs | PCA | 


Tr eee 








图 2-26 ”对 数据 进行 双向 聚 类 
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第 五 步 , 用 TreeView 类 结果 
聚 类 运算 完成 后 会 产生 三 个 文件 , GSE5281_MTG_DEG.gtr, GSE5281_MTG_DEG.atr, 
GSE5281_MTG_DEG.cdt。 其 中 , GSE5281_MTG_DEG.gtr, GSE5281_MTG_DEG.atr4} 别 ic 
其 对 基因 聚 类 和 对 样本 聚 类 的 过 程 , GSE5281_MTG_DEG.cdt 记 录 聚 类 的 结果 。 可 以 用 
TreeView 可 视 化 聚 类 结果 。 打 开 TreeView 软 件 , 导 和 人 GSE5281_MTG_DEG.edt 文 件 , 即 可 得 到 

聚 类 结果 的 树 形 结构 ,如 图 2-27 所 示 : 


[EC TreeView : C:\GEO\GSE5281 WTG DEG. cdt 


File Settings Analysis Export Window Help 








图 2-27 TreceView 可 视 化 聚 类 结果 
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Section5 Classification of Microarray Data 


基因 芯片 数据 的 分 类 分 析 是 一 种 有 监督 的 学 习 方法 , 即 样本 的 类 别 是 已 知 的 ,通常 以 基 
因为 特征 ,通过 已 知 类 别 的 样本 训练 分 类 器 ,评价 分 类 器 的 效能 ,并 对 未 知 类 别 的 样本 进行 
预测 。 此 外 ,为 了 提高 分 类 器 的 分 类 效能 ,通常 并 不 是 用 基因 芯片 上 的 所 有 基因 来 训练 分 类 
器 ,而 是 先进 行 特征 选择 ,筛选 出 对 分 类 有 重要 作用 的 特征 基因 子 集 ( 参 考 本 章 第 三 节 ), 基 
于 特征 基因 构建 分 类 器 。 目 前 常用 的 分 类 方法 包括 线性 判别 法 、 贝 叶 斯 分 类 法 人工 神经 网 
络 、k 近 邻 分 类 法 支持 向 量 机 决策 树 和 决策 森林 等 ,本 节 主 要 介绍 近邻 .决策 树 .支持 向 量 
机 等 分 类 方法 以 及 一 些 常 用 的 分 类 效能 的 评价 指标 。 


一 近邻 分 类 法 》》 


k3ft 4B k-nearest neighbor ) 分 类 的 基本 思想 : 对 于 给 定 的 一 个 待 分 类 的 样本 x, 首先 寻找 
与 x 最 接近 的 或 者 最 相似 的 k 个 已 知 类 别 的 训练 样本 ,然后 根据 这 个 样本 的 类 别 标签 来 确定 
样本 x 的 类 别 。 

kt 近邻 分 类 的 具体 步 又 为 : 

1. 选取 已 知 类 别 标签 的 训练 样本 集 x。 

2. 设置 k( k 为 奇数 ) 的 初始 值 。K 值 的 选取 没有 统一 的 方法 (需要 根据 具体 问题 选择 适 
当 的 值 )。 常 用 方法 是 先 确定 一 个 初始 值 , 然 后 通过 不 断 地 调试 选择 最 优 K 值 。 

3. 在 训练 样本 集中 选 出 与 待 分 类 样本 x 最 近 的 k 个 样本 。 常 用 的 方法 是 计算 已 知 类 别 样 
本 和 待 分 类 样本 间 的 欧式 距离 ,选取 与 样本 x 距离 最 近 的 k 个 样本 。 

4. Wy, yo, c ,yy 表示 与 待 分 类 样本 x 距离 最 近 的 k 个 样本 ,假设 样本 的 类 别 共 有 两 类 ， 
那么 y,y,，… ,中 属于 哪个 类 别 的 样本 多 , 则 将 待 分 类 样本 x 预测 为 哪个 类 别 。 


二 、 决 策 树 》》 


决策 树 ( decision tree ) 是 一 种 多 级 分 类 器 , 它 可 以 将 复杂 的 多 类 别 分 类 问题 转化 为 若干 
个 简单 的 分 类 问题 。 它 是 一 种 树 状 结构 ,在 每 一 个 非 叶子 节点 选取 一 个 属性 对 样本 进行 分 
割 ,每 一 个 叶子 节点 代表 一 个 类 别 标签 ,如 果 一 个 样本 落 入 一 个 叶子 节点 , 则 表明 该 样本 属 
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于 该 叶子 节点 所 代表 的 类 别 。 

图 2-28 显 示 的 是 一 个 决策 树 分 类 器 。 在 根 节点 中 一 共有 295 个 乳腺 癌 患 者 样本 ,在 非 
叶子 节点 通过 E2F 和 KIAA0191 这 两 个 基因 表达 水 平 的 高 i. 将 295 个 乳腺 癌 患 者 分 成 “LOW 
RISK” , “MED RISK”、“HIGH RISK” 三 类 ,预测 乳腺 癌 患 者 的 生存 情况 。 


oe 
=~ “o 


ha Y 23 ! 
“LOW RISK | 


图 2-28 决策 树 应 用 于 乳腺 癌 基 因 表 达 谱 的 分 类 分 析 
来 源 于 : Hallett RM, Hassell JA: E2F1 and KIAA0191 expression 
predicts breast cancer patient survival.BMC Res Notes.2011 
Mar 31;4 : 95. 


在 决策 树 的 构建 过 程 中 一 般 采 用 贪 焚 算 法 , 自 上 而 下 地 对 样本 进行 递归 分 割 。 决 策 树 
的 基本 步骤 如 下 : 

1. 以 代表 所 有 训练 样本 的 单个 节点 开始 ,如 果 样 本 属于 同一 类 别 , 则 该 节点 作为 叶子 市 
点 。 否 则 ,依据 某 种 分 割 规则 选择 最 具 分 类 能 力 的 属性 (如 基因 ) 作为 决策 树 的 当前 节点 。 

2. 依据 当前 决策 节点 属性 值 (如 基因 表达 水 平 ) 的 不 同 ,将 训练 样本 分 成 若干 子 集 。 

3. 重复 上 面 的 步骤 ,使 用 递归 的 方法 处 理 每 个 样本 子 集 ,直到 符合 终止 条 件 为 止 。 常 用 
的 终止 条 件 包括 所 有 叶子 节点 的 样本 都 属于 同一 类 别 或 叶子 节点 中 包含 了 指定 数目 的 样本 
(指定 叶子 节点 应 当 包含 的 最 少 样 本 数 ) 等 。 

利用 基因 芯片 数据 构造 决策 树 的 关键 步 又 在 于 每 一 个 非 叶子 节点 选取 哪个 基因 以 及 用 
哪 种 分 割 规则 对 训练 样本 进行 分 类 ,这 需要 通过 分 割 规则 判断 哪个 基因 更 合适 。 分 割 规则 
主要 包括 : 

Gini 指 数 变 化 ( A Gini ): Gini 指 数 是 用 来 评价 节点 纯度 的 指标 ,将 某 节点 N 的 Gini 指 数 定 
义 为 : 


k 
Gin j-1- 2 (2-17) 


其 中 pi 表示 第 类 样本 在 某 节 点 中 的 概率 , 即 某 节点 中 第 ;类 样本 的 频率 ; 表示 样本 类 别 
的 数量 。Gini 指 数 越 小 表示 节点 越 纯 ,如 果 Gini 指 数 为 0 则 表示 该 节点 中 的 所 有 样本 属于 同 
一 个 类 别 。 
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车 节点 N 分 割 成 两 个 字 节 点 NM 和 NN,, 则 Gini 指 数 的 变化 值 : 
AGini - Gini(N)- SGini(N)+ eGini(N,) (2-18) 
n n 


其 中 Gini( N, ) 和 Gini( N, ) 表示 子 节 点 N 和 ,的 Gini 指 数 , "表示 节点 N 中 样本 的 个 数 ， 
中 和 n2 分 别 表示 N, 和 ,中 样本 的 个 数 。 通 常 选择 A Gini 最 大 的 基因 作为 分 割 属性 以 及 对 应 


的 分 割 方式 。 
言 息 增益 : 该 指标 是 用 分 割 前 后 箭 值 的 改变 来 评价 节点 纯度 的 变化 。 对 于 某 节 点 N 的 
TEREN: 


k 
H(N)- -Y. p, log, p, ( 2-19) 


i=l 


其 中 pi 表示 第 类 样本 在 某 节 点 中 的 概率 , RREK BERT RE 
如 果 节 点 N 分 割 成 两 个 子 节点 NN 入 ,, 则 信息 增益 为 : 


n n 
“1 (N,)+™H1(N,)] (2-20) 


其 中 H( N ) AACN, ) dE F AN PN, Bf BI, "表示 节点 N 中 样本 的 个 数 , n Fn or 
AAACN, RUNS PEAS SES EPR SS SCR ED AE A R ERATA 
割 方式 。 

决策 树 分 类 器 对 训练 样本 集 的 准确 率 往 往 能 够 达到 100% ,但 这 会 导致 训练 过 度 ( 对 信 
号 和 噪声 都 适应 ), 而 且 会 让 决策 树 生 长 的 过 于 “ 校 系 叶 茂 "。 既 降低 了 决策 树 的 可 理解 性 和 
适用 性 ,又 使 决策 树 本 身 对 训练 样本 集 过 于 依赖 ,一 旦 推广 应 用 到 新 的 数据 时 ,决策 树 的 准 
确 性 将 迅速 下 降 。 因 此 限制 决策 树 的 生长 和 对 决策 树 的 修剪 是 极其 必要 的 。 常 用 的 策略 包 
括 设 定 决 策 树 的 最 大 层 数 和 设 定 每 个 节点 包含 的 最 小 样本 数 等 。 决 策 树 的 修剪 方法 主要 有 
前 剪 枝 和 后 剪 枝 : 前 剪 枝 是 在 决策 树 的 生成 过 程 中 通过 设 定 冰 值 停止 生长 ; 后 剪 梳 是 在 决 
策 树 长 成 以 后 由 下 而 上 进行 修剪。 


Gain = H(W)-{ 


三 支持 向 量 机 》》 


支持 向 量 机 ( support vector machine, SVM ) 是 由 Vapnik 等 人 在 1995 年 提出 的 一 种 机 需 学 
习 方法 。 它 以 统计 学 习 理 论 为 基础 ,根据 结构 风险 最 小 化 原则 ( structural risk minimization 
inductive principle, SRM ) 在 选择 的 特征 空间 中 构造 最 优 超 分 面 ( optimal hyperplane ), 从 而 使 
未 知 样本 的 分 类 误差 最 小 。 

在 很 多 情况 下 ,训练 样本 集 是 线性 不 可 分 的 ,因此 Vapnik 等 人 提出 了 用 高 维 分 类 面 来 解 
决 这 个 问题 。 通 过 非 线 性 变换 将 非 线性 问题 转化 为 某 个 高 维 空间 中 的 线性 问题 ,在 这 个 高 
维 空 间 中 寻找 最 优 的 分 类 面 。 而 支持 向 量 ( support vector ) 对 定义 最 优 分 类 面 极其 重要 , 它 
们 是 过 两 类 样本 中 离 分 类 面 最 近 的 点 .并 且 和 平行 于 最 优 分 类 面 的 超 平面 上 的 训练 样本 。 在 
高 维 空间 中 分 类 函数 只 涉及 训练 样本 之 间 的 内 积 运算 ,而 且 这 种 内 积 运算 可 通过 定义 在 原 
空间 中 的 函数 来 实现 ,其 至 不 需要 知道 变换 的 形式 。 通 过 支持 向 量 机 得 到 的 分 类 函数 类 似 
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于 一 个 神经 网 络 ,其 输出 是 一 些 中 间 层 节点 的 线性 组 合 ,而 每 一 个 中 间 层 节点 对 应 于 输入 样 
本 与 一 个 支持 向 量 的 内 积 。 最 终 的 判别 函数 只 包含 与 支持 向 量 的 内 积 和 求 和 ,因此 识别 的 
计算 复杂 度 取决 于 支持 向 量 的 个 数 。 

支持 向 量 机 通过 选择 的 内 积 苑 数 可 实现 线性 和 非 线性 分 类 。 选 择 不 同 内 积 核 函 数 将 导 
致 不 同 的 支持 向 量 机 算法 ,目前 比较 常用 的 内 积 核 函 数 主要 有 三 类 : 

1. 多 项 式 形式 的 内 积 核 函 数 


K (x,x,)=[(x-x,) +1] (2-21) 


此 时 获得 的 支持 向 量 机 是 一 个 4 阶 多 项 式 分 类 器 。 
2. 径 向 基 内 积 核 函 数 


x- 
K(x,x;)=exp UR (2-29) 


8| — PAE In] JE RTA A PEGE HAE I8] BE PRU IS AY EEX IE, SVM 中 每 个 基 
函数 的 中 心 对 应 一 个 支持 向 量 , 它 们 以 及 输出 权 值 都 是 由 算法 自行 确定 的 。 
3. SHE PRAN ARIZ PK% 


K (x,x,) = tanh [v(x-x)*c | ( 2-23) 


则 支持 向 量 机 的 实现 形式 是 一 个 多 层 感 知 器 神经 网 络 ,但 是 其 中 网 络 的 权 值 、 隐 层 节 点 
数 都 是 由 算法 自行 确定 的 。 

与 传统 的 机 器 学 习 方法 相 比 , 文 持 向 量 机 的 主要 优势 有 : 

1. 支持 向 量 机 能 够 应 用 更 多 的 距离 (相似 性 ) 函数 ,其 中 包括 线性 函数 和 非 线 性 函数 来 
比较 基因 表达 的 测量 值 ,从 而 能 够 更 精确 地 考虑 基因 表达 谱 向 量 之 间 的 关系 。 

2. 分 类 间隔 的 最 大 化 ,使 得 构建 的 分 类 模型 具有 较 好 的 鲁 棒 性 。 

3. 支持 向 量 机 基于 统计 学 习 理 论 中 结构 风险 最 小 化 原理 和 VC 维 ( Vapnik-Chervonenkis 
dimension ) 理论 ,具有 较 好 的 泛 化 能 力 , 即 通过 有 限 的 训练 样本 信息 ,在 分 类 模型 的 复杂 性 
和 学 习 能 力 之 间 寻 求 最 佳 的 折 中 ,期 望 获得 最 优 的 推广 能 力 。 


四 、 分 类 器 的 分 类 效能 评价 > > 


在 分 类 的 过 程 中 ,首先 应 用 重 抽样 (re-sampling ) 技术 把 数据 集 分 为 训练 集 ( training 
set ) 和 测试 集 ( test set )。 利 用 训练 集中 的 样本 构建 分 类 器 ,测试 集 用 于 评价 通过 训练 集 构 
建 的 分 类 央 的 分 类 效能 。 


(一 ) 重 抽样 法 


1. 7 倍 交叉 证 实 (m-fold cross validation) 将 数据 集 随 机 分 成 近似 相等 的 n 份 ,选取 其 中 
的 n-1 份 作为 训练 集 构建 分 类 右 ,和 璋 下 的 一 份 作为 测试 集 ,如 此 循环 n 次 。 通 过 这 种 方法 能 够 
产生 没有 重复 的 训练 集 和 测试 集 。 
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2. 留 一 法 交叉 证 实 (leave-one-out cross validation, LOOCV ) 每 次 从 数据 集中 随机 抽取 
一 个 样本 作为 测试 集 , 其 余 样 本 作为 训练 集 。 

3. Bootstrap aggregating 采取 有 放 回 抽样 的 方法 ,随机 抽取 不 大 于 原 数据 集 的 样本 集合 
(该 集合 成 为 原 数据 集 的 副本 )。 当 随机 抽样 的 数量 和 原 数 据 集 一 致 时 ,理论 上 每 一 个 副本 
中 包含 原 数据 集 63.2% 的 样本 ,剩余 的 为 重复 抽取 的 样本 。 将 副本 作为 训练 集 , 其 余 的 样本 
作为 测试 集 。 

4. 无 放 回 的 随机 抽样 ”每 次 随机 抽取 数据 集 的 1/n 作 为 测试 集 ,其 余 样 本 作为 训练 集 。 


(二 ) 分 类 效能 指标 











TP 
1. 敏感 性 ( sensitivity ) TP +FN (2-24 ) 
' TN 
2. 特异 性 ( specificity ) TN + FP (2-25 ) 
TP 
3. 阳性 预测 率 ( positive predictive value, precision ) TP+FP ( 2-26 ) 
TN 
4. 阴性 预测 率 ( negative predictive value ) TN + FN (2 273 
1 TP TN 
5. 均衡 正确 率 ( balanced accuracy ) il TPAFN + TM =] (2-28 ) 
TP+TN 
6. 正确 率 ( accuracy ) TP «TN + FP 4 FN ( 2-29) 


其 中 7P( true positive ) 表示 真 阳性 , 即 样本 类 别 为 阳性 ,分 类 器 正确 地 将 其 判断 为 阳性 
的 样本 数 ; TMC true negative ) 表示 真 阴性 , 即 样本 类 别 为 阴性 ,分 类 器 正确 地 将 其 判断 为 阴 
性 的 样本 数 ; FP( false positive ) 表示 假 阳性 , 即 样本 类 别 为 阴性 ,分 类 器 却 错误 地 将 其 判断 
为 阳性 的 样本 数 ; FN false negative ) 表示 假 阴 性 , 即 样本 类 别 为 阳性 ,分 类 器 却 错误 地 将 其 
判断 为 阴性 的 样本 数 。 

总 之 ,对 基因 芯片 数据 进行 分 类 分 析 有 助 于 与 疾病 的 精确 诊断 和 预后 分 析 。 但 是 复杂 
疾病 的 发 生 往往 不 是 由 于 单个 基因 的 改变 造成 的 ,而 是 遗传 因素 和 环境 因素 等 共同 作用 产 
生 的 结果 ; 不 同 疾病 涉及 的 基因 不 同 , 同 种 疾病 在 分 子 层 面 也 存在 着 较 大 的 异 质 性 ,因此 , 针 
对 疾病 相关 的 芯片 数据 进行 分 类 分 析 时 ,如 何 选取 合适 的 基因 作为 特征 构建 稳定 的 分 类 器 
以 达到 临床 诊断 的 要 求 仍然 是 个 极 大 的 挑战 。 


基因 芯片 数据 库 及 钊 用 分 析 软 件 
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Section 6 Microarray Databases and Softwares 


一 、 基因 表达 数据 库 ( gene expression omnibus, GEO ) > > 


近年 来 高 通 量 检测 基因 表达 的 技术 越 来 越 成 熟 .应 用 也 越 来 越 广泛 ,例如 , 基 


E 
j^ , 


基因 表达 系列 分 析 (serial analysis of gene expression, SAGE ) 和 新 一 代 测 序 ( next generation 
sequences, NGS ) 等 技术 都 可 以 实现 对 数 以 万 计 的 基因 转录 本 的 检测 。GEO 是 由 美国 国立 生 
物 技 术 信 息 中 心 ( national center for biotechnology information, NCBI ) 开发 和 维护 的 公共 数据 
库 , 它 存储 基因 芯片 数据 .新 一 代 测序 数据 以 及 其 他 形式 的 高 通 量 功能 基因 组 数据 ,并 将 其 
发 布 供 研究 者 自由 使 用 。 目 前 , CEO 储 存 了 约 20 000 项 研究 得 到 的 涉及 500 000 个 样本 、1300 
个 物种 .330 亿 单个 基因 的 表达 检测 数据 ,这 些 数据 是 由 世界 各 地 的 8000 多 个 实验 室 提供 的 。 
基于 web 工 具 , 用 户 可 以 对 GEO 存 储 的 大 量 数据 进行 浏览 查询 和 可 视 化 。 通 过 四 种 编号 


GPL、GDS、GSE 和 GSM 可 以 获得 完整 的 平台 数据 集 、 系 列 和 样本 的 信息 。 例 如 ,在 Query 音 
分 常用 GSE 号 输入 到 “GEO accession ”中 ,可 以 了 解 芯 片 数据 的 详细 信息 (图 2-29 )。 


px 
èS NCBI 





NCBI » GEO 


CO 


sene x sion Omeibus 


pres 
GEO. Publications FA 


MIAME Email GEO 
Login 


Gene Expression Omnibus: a public functional genomics data repository supporting MIAME- 
compliant data submissions. Array- and sequence-based data are accepted. Tools are provided to 
help users query and download experiments and curated gene expression profiles. 
More information 


GEO navigation 











(Datasets —- JE 
1 Gene profiles ]| | Kad 
{GEO accession || JE 
[GEO BLAST . 
{Datasets | — p= Platforms — 
[GEO accessions|—-|-——[ Samples — ] 
kia series —— 


图 2-29 GEO accession & 74 Jf- G 









Site contents 
Public data 
Platforms 9,881 


Samples 705,027 
Seres E — 28,675 
DataSets 2,720 


Overview | FAQ | Fing 
Submission guide 
Linking & citing 
Journal citations 
Construct a Query 
Programmatic acces 
DataSet clusters 
GEO announce list 
Data disclaimer 
GEO staff 
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GEO 根 据 平台 数据 集 、 系 列 和 样本 四 种 形式 组 织 数据 ,使 用 数据 的 研究 人 员 可 以 获取 
以 下 四 方面 相应 的 信息 。 


平台 ( platform, GPLxxx ): 平台 信息 是 由 微 阵列 的 简要 描述 和 用 来 确定 微 阵 列 模板 的 数 
据 表 构成 。 最 基本 的 平台 信息 是 探 针 列表 ,它们 规定 了 哪些 基因 可 以 在 该 芯片 平台 上 被 检 
测 出 来 ; 平台 编号 以 CPL 为 起 始 。 

数据 集 ( dataset, GDSxxx ): 一 个 数据 集中 的 样本 来 自 相 同 的 芯片 平台 ,并 且 这 些 样本 的 
检测 值 是 都 是 以 同 种 方式 处 理 (如 ,背景 校正 和 标准 化 等 ) 之 后 得 到 的 。 数 据 集 是 由 生物 学 
上 和 统计 学 上 能 相互 比较 的 样本 所 组 成 的 ,这 些 样 本 可 能 来 自 不 同 的 数据 提供 者 , 它 构成 了 
GEO 特 有 的 数据 显示 和 数据 分 析 的 基础 ; 数据 集 编 号 以 CDS 为 起 始 。 

系列 ( series, GSExxx ): 系列 是 由 数据 提供 者 提交 给 GEO0 的 一 次 实验 的 基因 芯片 数据 ， 
这 些 数据 具有 明确 的 研究 目的 ,是 用 户 在 使 用 GEO 时 经 常 采 用 的 一 种 数据 查询 和 下 载 方 式 ; 
系列 编号 以 GSE 为 起 始 。 

样本 ( sample, GSMxxx ): 在 基因 芯片 实验 中 ,一 个 样本 中 所 有 基因 的 表达 水 平 通常 由 一 
张 芯片 来 检测 ,样本 信息 由 所 检测 的 生物 材料 的 描述 .所 遵循 的 实验 协议 和 包含 检测 丰 度 值 
的 数据 表 构 成 ; 样本 编号 以 CSM 为 起 始 。 


二 、 基 因 芯 片 显著 性 分 析 ( significance analysis of microarray, 
SAM ) 》》 


SAM 是 由 美国 Standford 大 学 开发 的 一 个 免费 软件 ,是 目前 使 用 最 为 广泛 的 差异 表达 
基因 筛选 方法 之 一 。SAM 软件 以 插件 的 形式 在 Excel 中 运行 ,使 用 简单 、 很 容易 被 生物 医 
学 工作 者 所 掌握 。SAM 考 虑 到 基因 芯片 数据 噪声 大 小 与 表达 丰富 相关 的 特点 ,对 ! 检 验 进 
行 修正 ,为 每 个 基因 计算 一 个 统计 量 D, 其 表示 该 基因 表达 水 平均 值 的 变化 (比如 ,在 疾病 
正常 两 类 之 间 的 变化 ) 与 标准 差 的 比值 。 此 外 ,该 方法 使 用 随机 扰动 数据 集 的 方法 估计 
随机 情况 下 统计 量 D 的 分 布 ,通过 选择 delta 值 ,确定 FDR 的 水 平 ,从 而 识别 显著 差异 表达 
的 基因 。 此 外 , SAM 软 件 还 提供 了 k 近 邻 方法 补缺 失 值 的 功能 。 应 用 实例 请 参见 本 章 第 
=o 


SAM 可 以 从 http: //www-stat.stanford.edu/~tibs/SAM/index.html F 4X. 


三 、Cluster and TreeView 》》 


Cluster 和 TreeView 是 对 基因 芯片 数据 进行 聚 类 和 可 视 化 的 工具 。Cluster 提 供 了 多 种 聚 
类 算法 ,同时 还 能 够 在 聚 类 之 前 对 数据 进行 过 滤 和 标准 化 等 处 理 ; 而 TreeView 则 能 够 以 热 图 
和 系统 树 图 的 方式 可 视 化 聚 类 的 结果 。 这 两 个 软件 通常 联合 应 用 ,将 Cluster 的 聚 类 结果 用 
TreeView 进 行 显 示 。 

Cluster 可 以 从 http: //bonsai.hge.jp/~mdehoon/software/cluster/software.html F#8; http: //www.treeview. 
nethv/download.asp 提 供 了 包括 Windows, Macintosh, Linux 和 Unix 在 内 的 各 种 版 本 的 TreeView 
软件 。 
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. BRB-ArrayTools 》》 


BRB-ArrayTools 是 一 款 综合 的 基因 芯片 数据 分 析 软 件 。BRB-ArrayTools 能 够 针对 多 种 
平台 的 基因 表达 谱 数 据 进行 几乎 所 有 的 常规 数据 分 析 , 包 括 预 处 理 、 标 准 化 、 聚 类 、 分 类 TH 
能 注释 、 可 视 化 等 。BRB-ArrayTools 也 是 以 Excel 加 载 宏 的 形式 呈现 ,所 以 操作 简单 .使 用 方 
面 。 上 面 提 到 的 SAM、Cluster 和 TreeView 均 已 整合 到 ArrayTools 软 件 中 。 

ArrayTools 可 以 从 http: Wlinus.nci.nih.govwBRB-ArrayTools.html 下 载 。 


五 、R 语 言 和 Bioconductor 》》 


R 语 言 是 一 种 计算 机 程序 设计 语言 ,也 是 一 个 开放 式 的 软件 开发 平台 。R 语 言 具有 强大 
的 数学 统计 分 析 和 科学 数据 可 视 化 功能 ,能 提供 各 种 数据 处 理 、 统 计 分 析 及 图 形 显示 工具 。 
R 语 言 在 生物 信息 领域 具有 重要 的 应 用 价值 ,利用 R 语 言 可 以 进行 基因 芯片 数据 的 差异 表达 
分 析 、 聚 类 分 析 和 分 类 分 析 等 。 软 件 研 究 人 员 可 以 在 R 语 言 这 个 开放 平台 上 不 断 扩 充 其 功 
能 ,开发 出 面向 特定 应 用 的 软件 。 

Bioconductor 是 一 个 基于 R 语 言 的 .面向 基因 组 信息 分 析 的 应 用 软件 集合 。Bioconductor 
的 应 用 功能 是 以 包 的 集成 形式 呈现 给 用 户 , 它 提供 的 软件 包 中 包括 各 种 基因 组 数据 分 析 和 
注释 工具 。 同 时 , Bioconduetor 还 提供 了 许多 专门 的 基因 芯片 分 析 软 件 包 ,可 以 实现 数据 的 预 
处 理 、 各 种 分 析 注释 及 可 视 化 等 功能 。Afgfy 是 分 析 Affymetrix 诊 聚 核 苷 酸 世 片 的 软件 包 , 可 用 
于 数据 的 读 取 ,过滤 标准 化 等 。Marray 是 用 于 双 通 道 ( cDNA ) 微 阵列 数据 的 预 处 理 软件 包 。 
Limma 包 通过 使 用 线性 模型 来 分 析 设 计 实 验 和 评估 差异 表达 ,可 应 用 于 所 有 类 型 的 芯片 数据 。 


六 、Matlab: Bioinformatics Toolbox 5 > 





Matlab 是 美国 MathWorks 公 司 出 品 的 商业 数学 软件 ,是 用 于 算法 开发 .数据 可 视 化 、 数 据 

分 析 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 。Matlab 的 基本 数据 单位 是 矩阵 ,而 

基因 表达 谱 也 是 矩阵 形式 的 数据 ,因此 ,通过 Matlab 编 程 能 够 比较 容易 地 进行 基因 芯片 的 数 

据 分 析 。 其 中 , Bioinformatics Toolbox 是 基于 MATLAB 环 境 开 发 的 基因 组 和 和 蛋白 质 组 分 析 工 

具 箱 。 该 工具 箱 功能 强大 ,可 进行 数据 库 访 问 序列 比 对 .基因 芯片 数据 分 析 .可 视 化 以 及 功 
能 注释 等 。 此 外 ,在 MATLAB 环 境 中 还 可 调用 其 他 的 生物 信息 学 软件 。 

(4h tf ZK 陈 晓 文 杨 A) 
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Section 1 Introduction 


随 着 后 基因 组 ( post-genomics ) 时 代 的 来 临 ,基因 组 学 的 研究 重心 开始 从 阐明 所 有 遗传 
言 息 转移 到 在 整体 分 子 水 平 对 功能 进行 研究 。 这 种 转变 的 一 个 重要 标志 是 产生 了 功能 基因 
组 学 (functional genomics )。 功 能 基因 组 学 利用 结构 基因 组 所 提供 的 信息 和 产物 ,发 展 和 应 
用 新 的 实验 手段 ,通过 在 基因 组 或 系统 水 平 上 全 面 分 析 基 因 的 功能 ,使 得 生物 学 研究 从 对 单 
一 基因 或 蛋白 质 的 研究 转向 多 个 基因 或 蛋白 质 同时 进行 系统 的 研究 。 功 能 基因 组 学 的 主要 
任务 之 一 是 进行 基因 组 功能 注释 ( genome annotation ), 了解 基因 的 功能 ,认识 基因 与 疾病 的 
关系 ,掌握 基因 的 产物 及 其 在 生命 活动 中 的 作用 等 。 在 使 用 全 局 方法 进行 研究 时 ,研究 人 员 
往往 同时 检测 大 量 基因 的 表达 水 平 , 从 而 在 整体 水 平 上 获得 关于 基因 功能 及 基因 之 间 相 互 
作用 的 信息 ,如 何 应 用 生物 信息 学 方法 ,高 通 量 地 注释 这 些 基因 的 生物 学 功能 是 一 个 重要 的 
挑战 。 快 速 有 效 的 基因 注释 对 进一步 识别 基因 ,识别 基因 转录 调控 信息 ,研究 基因 的 表达 调 
控 机 制 ,研究 基因 在 生物 体 代 谢 途 径 中 的 地 位 ,分 析 基 因 、 基 因 产 物 之 间 的 相互 作用 关系 , 绘 
制 基 因 调 控 网 络 图 ,预测 和 发 现 蛋 白质 功能 ,揭示 生命 的 起 源 和 进化 等 具有 重要 的 意义 。 

本 章 主要 介绍 当前 常用 的 基因 注释 数据 库 和 基因 功能 预测 方法 ,以 及 在 此 基础 上 发 展 
起 来 的 基因 集 功 能 富 集 分 析 、 基 因 功 能 比较 等 方法 和 常用 工具 。 
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Section 2 Gene Annotation Database 


一 、GO( gene ontology ) 数据 库 >> 


随 着 生物 技术 和 信息 技术 的 发 展 ,研究 人 员 已 经 掌握 了 大 量 的 全 基因 组 数据 ,同时 关于 
基因 、 基 因 产 物 以 及 基因 功能 知识 越 来 越 丰富 ,这 些 知 识 被 生物 学 家 共享 ,如 何 利 用 这 些 先 
验 知识 ,使 之 成 为 计算 机 可 识别 并 操作 的 资源 ,这 需要 合理 组 织 和 系统 的 方法 。 因 此 提供 一 
个 结构 化 的 标准 的 生物 学 模型 ,以 便 计 算 机 程序 进行 分 析 , 成 为 从 整体 水 平 系 统 研究 基因 及 
其 产物 的 一 项 基本 需求 。 本 节 主 要 介绍 当前 应 用 较为 广泛 的 基因 及 其 产物 注释 数据 库 : GO. 

GO 目标 是 建立 一 个 可 以 适用 于 各 种 物种 的 ,对 基因 和 蛋白质 功 能 进行 限定 和 描述 的 ， 
动态 控制 的 词 表 ,即使 关于 某 个 基因 或 蛋白 的 功能 与 作用 的 知识 未 知 或 在 不 断 积累 变化 中 ， 
我 们 仍然 能 有 一 定 的 规则 去 描述 更 新 它 。GO 中 有 约束 的 功能 词汇 (terms ) 称 为 一 个 概念 ， 
它 表 示 一 个 功能 类 ,使 用 它 来 描述 众多 的 基因 的 功能 ,并 严格 地 定义 功能 类 之 间 的 关系 。 功 
能 类 之 间 的 关系 分 为 is-a, 和 part-of 两 类 , is-a 表 示 子 功能 是 父 功能 的 一 个 实例 , part-of 表 示 
子 功能 是 父 功能 的 一 个 部 分 。GO 以 有 向 无 环 图 方式 表示 功能 类 之 间 的 关系 (图 3-1 ), 它 的 
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图 3-1 GO 中 生物 学 过 程 的 DNA 代 谢 部 分 功能 类 示意 图 
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一 个 子 结 点 可 以 有 多 个 父 结 点 ,但 没有 循环 关系 ,父辈 结 点 包含 所 有 子 结 点 的 含义 , 即 从 父 
结 点 到 子 结 点 ,含义 是 逐 层 深入 的 关系 。 
(一 ) GO 数据 库 构 成 


GO 将 基因 功能 划分 为 细胞 组 分 ( cellular component )、 分 子 功能 ( molecular function ), ^E 
物 学 过 程 ( biological process ) 34-21 3X (43-1 )。 因 此 ,一 个 基因 或 蛋白 可 从 三 个 层面 得 到 注 
释 , 可 能 是 同一 个 物体 存在 的 多 种 性 质 。 如 细胞 色素 c, 在 分 子 功能 上 体现 为 电子 传递 活性 ， 
在 生物 过 程 中 与 氧化 磷酸 化 和 细胞 凋 亡 有 关 , 在 细胞 中 存在 于 线粒体 质 中 和 线粒体 内 膜 上 。 
随 着 生命 科学 人 研究 的 逐步 深入 , G0 注释 数据 库 正在 不 断 积 累 和 更 新 。 目 前 GO 已 经 成 为 生 
物 信 息 领域 中 一 个 重要 的 方法 和 工具 ,并 正在 逐步 改变 着 我 们 对 各 种 生物 学 数据 的 组 织 和 
理解 方式 , 它 的 存在 已 经 大 大 加 快 了 生物 数据 的 整合 和 利用 。 

项 目 最 初 是 由 1988 年 对 三 个 模式 生物 数据 库 的 整合 开始 : 果 蝇 数据 库 ( FlyBase ) WER 
基因 组 数据 库 ( saccharomyces genome database ) 和 小 鼠 基 因 组 数据 库 MCD ( the mouse genome 
database ), 随后 相继 收录 了 更 多 数据 , GO 不 断 发 展 扩 大 ,现在 已 包含 数 十 个 动物 .植物 、 微 生 
物 的 数据 库 。GO 术 语 在 多 个 合作 数据 库 中 的 统一 使 用 ,促进 了 各 类 数据 库 对 基因 描述 的 一 
致 性 。 目 前 已 经 成 为 应 用 最 广泛 的 基因 注释 体系 之 一 。 


表 3-1 GO 数据 库 收录 的 基因 组 数据 列表 





机 构 简称 收录 的 基因 组 数据 网 站 
BBOP Ru http: //www.berkeleybop.org 
BHF-UCL 心血 管 基因 http: //www.cardiovasculargeneontology.com 
dictyBase 粘 菌 盘 基 网 柄 菌 http: //dictybase.org 
EcoliWiki 大 上 肠 埃 希 菌 http: //ecoliwiki.net 
FlyBase Ri http: //flybase.bio.indiana.edu 
GeneDB ARIS RE OR PEE Jit MRKAR, http: //www.genedb.org 

Ais RAER 

GOA UniProtfilInterPro?i f£ http: //www.ebi.ac.uk/GOA 
Gramene 农作物 基因 数据 库 http: //www.gramene.org 
MGDandGXD ”小 家 鼠 http: //www.informatics.jax.org 
RGD 4592 BR http: //rgd.mew.edu 
Reactome 生物 过 程 知 识 库 http:  —nM E TI 
SGD 芽 殖 酵母 .酿酒 酵母 http: //www.yeastgenome.org 
TAIR 拟 南 芥 http: //www.arabidopsis.org 
IGS 基因 组 研究 的 工具 和 数据 http: //www.igs.umaryland.edu 
JCVI 若干 种 细菌 基因 组 数据 库 http: //www.jevi.org 
WormBase 线虫 http: //www.wormbase.org 


ZFIN 斑马 鱼 http: //zfin.org 
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(二) GO 数据 库 的 在 线 注释 


GO 中 的 结 点 如 何 与 对 应 的 基因 产物 相 联 系 呢 ? 这 是 由 参与 合作 的 数据 库 来 完成 的 , 它 
们 使 用 GO 的 定义 方法 ,对 它们 所 包含 的 基因 产物 进行 注释 ,并 且 提 供 支 持 这 种 注释 的 参考 
和 证 据 。 每 个 基因 或 基因 产物 都 会 有 一 个 列表 , 列 出 与 之 相关 的 GO 结 点 。 现 在 对 于 基因 或 
者 结 点 的 注释 可 以 使 用 多 种 不 同 的 工具 软件 进行 查询 ,它们 大 多 数 G0 浏 览 器 都 是 web 模 式 
的 ,允许 你 直观 地 看 到 结 点 和 其 相关 信息 ,如 定义 、 同 义 词 和 数据 库 参 考 等 。 有 些 G0 浏 览 器 
如 AlliCO 和 QuickGo, 可 以 看 到 每 个 结 点 的 注释 。 

我 们 这 里 使 用 AmiGCO 作 为 实例 说 明 GO 数 据 库 的 在 线 注 释 。 在 GO 数据 库 中 ,每 条 记录 都 
有 一 个 数据 标识 号 GO: XXXXXX 和 对 应 的 结 点 。 因 此 检索 时 需要 知道 待 查 基 因 的 名 字 或 结 
点 的 数字 标识 号 ,将 它们 直接 输入 检索 框 即 可 。 如 果 检 索 的 基因 或 蛋白 质 存 在 别名 ,可 在 检 
索 框 下 勾 “gene or proteins”, 并 在 检索 框 中 输入 别名 检索 ;“exact match” 表 示 是 否 完 全 匹配 ， 
可 供 选 择 。 

这 里 以 检索 神经 源 性 分 化 因子 6( NEUROD6 ) 为 例 。 在 检索 框 中 输入 “NEUROD6” 并 
“Jj “gene and proteins” 和 “exact match” 运行 后 所 得 基因 产物 。 检 索 得 到 的 四 个 记录 分 别 
是 不 同 物种 中 的 神经 源 性 分 化 因子 6, 点 击 物种 为 人 类 的 “NEUROD6” 记录 , 即 为 该 基因 产 
物 的 基本 信息 ,包括 类 型 物种、 别名 来 源 和 序列 ; 图 3-2 显 示 了 该 基因 产物 的 结 点 关联 (term 
associations ) 图 , 图 中 记录 名 称 "Term" 是 GO 记录 的 名 字 ， "Ontology" 是 该 基因 产物 的 特性 , 
如 要 查看 其 分 子 功能 ,可 点 击 其 中 的 一 条 记录 “nervous system development” ([&13-3 ). 
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图 3-2 AmiGO 基 因 描 述 示例 
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nervous system development 
Term information è Term ineage + Extemal references *& 5317 gene product associations 中 


Term Information _ 








accession Go:0007399 
| Ontology biological process | 
Synonyms related: pan-neural process 








Definition The process whose specific outcome is the progression of nervous tissue over time, from its formation to its mature 
state. [source: GOC:dgh] 

Comment None 

Subset None 
| Community There have been 0 comments for this term. If you would like to view or participate in the community annotation, please 
| continue to the GONUTS page. 

Back to top 
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Switch to viewing term parents, siblings and children 
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| © at : all [372469 gene products] 
© B GO:0008150 : biological process [274193 gene products} 
| © E GO:0032502 : developmental process [27802 gene products] 
© E GO:0048856 : anatomical structure development [20054 gene products] 
& Bi GO:0048731 : system development [15068 gene products] 
E B 6GO:0007399 : nervous system development [5317 gene products] 
Ej B GO:0007275 : multicellular organismal development [23925 gene products] 
© 9 Go:0048731 : system development [15068 gene products] 
| E] 8 GO:0007399 : nervous system development [5317 gene products] 
© B GO:0032501 : multicellular organismal process [32735 gene products] 
E) B. GO:0007275 : multicellular organismal development [23925 gene products] 
Ej @ Go:0048731 : system development [15068 gene products] 
Ej E GO:0007399 : nervous system development [5317 gene products] 








| 

| External References 
| w MIPS, funcat (2) 

45.03.17 











| 47.03.01 
v SP KW (1) 
KW-0524 
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图 3-3 上 部 先 对 神经 源 性 分 化 因子 6 的 相关 信息 做 简单 描述 ,中 间 结 点 系谱 (Term 
Lineage 音阶 梯 状 分 布 , 记 录 了 GO 数据 库 中 全 部 分 子 功 能 所 处 的 位 置 和 关系 。 下 方 “External 
Reference” 提 供 了 与 外 部 相关 数据 的 链接 。 点 击 右 上 方 的 可 视 化 视图 ( Graphical View ) 就 
更 清晰 地 显示 了 分 子 功能 记录 之 间 构 成 的 复杂 网 状 结构 , 既 有 上 下 隶属 关系 ,也 存在 平行 
系 ( 图 3-4 )。 

对 于 未 知 基 因 名 的 序列 ,可 以 用 序列 直接 检索 GO 数据 库 。 点 击 AmiG0 首 页 上 方 
HY “BLAST” ,在 检索 框 中 输入 氨基 酸 或 核酸 序列 ,网 页 能 自动 识别 并 相应 地 做 BLASTP 或 
BLASTX 和 数据 库 中 的 序列 比 对 , 比 对 到 序列 相似 的 基因 ,同上 面 的 做 法 一 样 , 可 以 查询 到 功 
能 注释 信息 。 


(=) GO 数据 库 本 地 化 及 批量 注释 


GO 的 所 有 数据 都 是 免费 获得 的 。GO 数 据 中 包含 了 结 点 间 的 结构 ( ontologies ) 和 基因 或 
基因 产物 的 注释 (annotations ) 数据 ,还 包括 蛋白 序列 比 对 的 数据 (图 3-5 )。 其 中 结构 数据 包 
含 结 点 和 结 点 之 间 的 连接 关系 ,注释 数据 包含 由 数据 库 成 员 提交 的 基因 或 基因 产物 与 结 点 
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图 3-4 AmiGO 查 询 结果 图 形 视图 


Contents 
ontologies, definitions and mappings to other dbs 


termdb (above); all manual gene product annotations; electronic annotations (IEA) 
from all databases other than UniProtKB mm 


assocdb (above), plus protein sequences for most of the gene products 


termdb (above), plus manual and electronically generated ([IEA]) annotations 


图 3-5 可 供 下载 的 GO 数据 
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Updated 
daily 


weekly 


weekly 


monthly 


间 关 联 。 结 构 和 注释 两 种 数据 分 别 储存 在 单独 的 数据 库 中 ,这 使 得 利用 结构 对 注释 的 查询 


更 加 有 效 。 


GO 的 网 站 上 提供 多 种 数据 形式 的 下 载 : MySQL, OBO XML, OWL, RDF XML, SQL. 
XML 和 MySQL 文 件 是 被 储存 于 独立 的 GO 数据 库 中 (图 3-6 )。 下 载 数据 到 本 地 后 ,如 果 需 要 
找到 与 某 一 个 GO 术语 相关 的 基因 或 基因 产物 ,可 以 找到 一 个 相应 表格 ,搜寻 到 这 种 注解 的 
编号 ,并 且 可 以 链接 到 与 之 对 应 的 位 于 不 同 数据 库 的 基因 相关 文件 。 

当 用 户 希 望 对 大 量 的 基因 进行 基因 注释 时 , GO 的 网 站 上 提供 了 许多 推荐 的 工具 ,可 以 
基于 GO 做 批量 分 析 。 我 们 以 GENETOOLS 为 例 , 它 可 以 提供 基因 和 结 点 的 批量 查询 ,用 以 方 
便 用 户 对 GO 注释 的 解释 , 它 还 提供 了 注释 结 点 树 状 结构 的 可 视 化 ,并 能 自由 编辑 (图 3-7 )。 
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NAME: 

: $ 
PESCRPTDON ~ Evidence 
des filter o 
Aleponerist d 


etais 


View 
ta ta as 
Export: 
MOLECULAR BIOLOGICAL Text (i) Format 1 
FUNCTION. PROCESS Tex (bi) Format 2 


Generate compressed excel file 


E13 cellular, component (60:0005575) 
上 上田 3 cen (60:0005623) 

Fa ceti part (600044464) 

F-81 envelope (60:0031975) 

|- 83 organeite (60.0043226) 

L-82 organelle part (000044422) 


图 3-7 GENETOOLS 工 具 批 量 查找 示例 


二 、KEGG 数 据 库 》》 


生物 体 细胞 的 生物 学 功能 是 许多 分 子 相互 作用 的 结果 ,不 能 仅仅 归功 于 单个 基因 或 单 
个 分 子 。KEGG( Kyoto encyclopedia of genes and genomes ,京都 基因 与 基因 组 百科 全 书 ) 就 是 
将 基因 组 中 的 一 系列 基因 用 一 个 细胞 内 的 分 子 相互 作用 的 网 络 连 接 起 来 的 过 程 ,如 一 个 通 
路 或 是 一 个 复合 物 ,通过 它们 来 展现 更 高 一 级 的 生物 学 功能 的 数据 库 。KEGG 将 基因 组 信息 
和 高 一 级 的 功能 信息 有 机 地 结合 起 来 ,通过 对 细胞 内 已 知 生物 学 过 程 的 计算 机 化 处 理 和 将 
现 有 的 基因 功能 解释 标准 化 ,整合 了 基因 组 学 .生物 化 学 以 及 系统 功能 组 学 的 信息 ,有 助 于 
研究 者 把 基因 及 表达 信息 作为 一 个 整体 网 络 进行 研究 。 


(一 ) KEGG 数 据 库 的 主要 组 成 


KEGG 中 的 pathway 是 根据 相关 知识 手绘 的 ,这 里 的 手绘 的 意思 可 能 是 指 人 工 以 特定 的 
语言 格式 来 确定 通路 各 组 件 的 联系 ; 基因 组 信息 主要 是 从 NCBI 等 数据 库 中 得 到 的 ,除了 有 
完整 的 基因 序列 外 ,还 有 没完 成 的 草图 。KEGG 目 前 共 包 含 了 19 个 子 数据 库 , 它 们 被 分 类 成 
系统 信息 .基因 组 信息 和 化 学 信息 三 个 类 别 。QD) 基 因 组 信息 存储 在 GENES 数 据 库 里 ,包括 全 
部 完整 的 基因 组 序列 和 部 分 测序 的 基因 组 序列 ,并 伴 有 实时 更 新 的 基因 相关 功能 的 注释 ,更 
高 级 的 功能 信息 则 存储 在 PATHWAY 数 据 库 里 ,包括 图 解 的 细胞 生化 过 程 如 代谢 、 膜 转运 、 
言 号 传递 细胞 周期 和 同系 保守 的 子 通路 等 信息 ; 一 些 直 系 同 源 的 基因 数据 作为 PATHWAY 
数据 库 的 补充 ,形成 了 PATHWAY 数 据 库 中 一 些 保守 的 子 通路 ( pathway motifs ), 这些 子 通 路 
通常 有 一 些 在 染色 体位 置 上 邻近 的 基因 编码 ,这 对 于 基因 功能 的 预测 十 分 重要 ; CIKEGG 中 
化 学 信息 的 6 个 数据 库 被 称 为 KEGG LIGAND 数 据 库 , 包 含 化 学 物质 、 酶 分 子 、 酶 化 反应 等 信 
息 。KEGG BRITE 数 据 库 是 一 个 包含 多 个 生物 学 对 象 的 基于 功能 进行 等 级 划分 的 本 体 论 数 
据 库 , 它 包 括 分 子 .细胞 ,物种 疾病 .药物 以 及 它们 之 间 的 关系 ,该 数据 库 将 基因 与 外 界 环境 
影响 联系 起 来 。 例 如 ,可 以 通过 BRITE 数 据 库 分 析 药物 和 靶 点 之 间 的 关系 。@ 一 些小 的 通 
路 模块 被 存储 在 MODULE 数 据 库 中 ,该 数据 库 还 存储 了 其 他 的 一 些 相 关 功 能 的 模块 以 及 化 
合 物 信息 ; KEGG DRUG 数 据 库存 储 了 目前 在 日 本 所 有 非处方药 和 美国 的 大 部 分 处 方药 








\ 126 第 三 章 ”基因 注释 与 功能 分 类 
CHAPTER 3 GENE ANNOTATION AND FUNCTIONAL CLASSIFICATION 


mm; S)KEGG DISEASE 是 一 个 存储 疾病 基因 .通路 药物 以 及 疾病 诊断 标记 等 信息 的 新 型 数 
据 库 。 


(=) KEGG 数 据 库 在 线 注释 


KEGG 通过 “ 专 有 名 词 ”KO( KEGG orthology ) 对 基因 进行 注释 ,每 个 KO 标识 代表 一 个 
来 自 不 同 物种 的 直系 同 源 基 因 组 。 它 是 和 蛋白质 ( 酶 ) 的 一 个 分 类 体系 ,序列 高 度 相似 ,并 且 在 
同一 条 通路 上 有 相似 功能 的 蛋白 质 被 归 为 一 组 ,然后 打上 KO( 或 K ) 标 签 。 在 KEGG 通 路 中 ， 
每 个 KO 标识 代表 着 通路 图 中 一 个 网 络 结 点 (在 通路 图 中 以 一 个 方 盒子 表示 )。 在 KEGG 对 每 
个 对 象 的 功能 及 其 他 等 级 划分 中 , KO 标识 则 代表 着 底层 的 叶子 结 点 。 

KO 标 识 是 基因 组 通过 KEGG 通 路 以 及 KEGG 等 级 划分 与 生物 学 系统 关联 的 基础 。 对 于 
KEGG 中 的 每 个 物种 来 说 ,物种 特异 性 通路 以 及 功能 等 级 的 划分 是 通过 计算 的 方法 自动 实现 
的 ,在 这 一 过 程 中 KO 标识 是 必 不 可 少 的 。 有 了 这 些 物种 特异 性 通路 以 及 功能 等 级 划分 ,由 
基因 芯片 表达 谱 等 高 通 量 方法 得 到 的 基因 便 可 以 注释 到 相应 的 位 置 ,以 此 来 系统 的 分 析 该 
基因 在 细胞 或 组 织 中 的 功能 。 除 了 对 基因 或 蛋白 的 功能 等 级 划分 之 外 , KEGG BRITE 数 据 
库 还 包含 了 化 合 物 ( C、D、G、R 标 识 ) 以 及 其 作用 关系 的 等 级 划分 。 

KO 标识 还 可 以 将 基因 的 基因 组 信息 以 及 转录 组 信息 与 通路 总 化 合 物 分 子 的 化 学 结构 
联系 起 来 ,因此 , KO 分 类 系统 还 可 以 应 用 化 学 信息 注释 上 。 这 一 过 程 实现 的 基本 原理 是 每 
个 KO 下 的 基因 所 标识 的 酶 是 不 同 的 ,其 对 应 化 学 底 物 也 不 同 , 男 外 ,还 有 对 生物 合成 通路 信 
息 的 不 断 积累 不 断 更 新 作为 数据 支撑 的 基础 。 例 如 : 糖 类 的 生物 合成 是 通过 一 系列 的 生化 
反应 来 完成 的 ,这 些 反应 都 是 由 糖 基 转移 酶 催化 。 在 KEGG PATHWAY 中 ,与 糖 类 生物 合成 
相关 的 通路 图 中 各 种 糖 类 相关 的 化 合 物 都 是 通过 一 条 边 与 糖 基 转 移 酶 的 一 组 同 源 基因 ( KO 
group ) 直接 相连 ,一 旦 在 通路 中 确定 了 基因 的 注释 位 置 , 则 与 其 相关 的 糖 类 化 合 物 也 被 找 
到 。 应 用 相似 的 方法 可 以 对 基因 芯片 表达 谱 数据 进行 糖 类 结构 以 及 功能 的 预测 ,这 一 方法 
已 被 广泛 使 用 。 除 了 糖 类 化 合 物 之 外 ,在 KEGG 数 据 库 中 还 存储 了 很 多 其 他 化 合 物 (多 聚 不 
饱和 脂肪 酸 、 熙 类 化 合 物 、. 聚 酮 化 合 物 等 ) 的 结构 和 功能 信息 ,通过 以 上 方法 可 以 对 基因 进行 
化 学 信息 的 注释 。 

下 面 以 人 类 亚 甲 基 四 所 叶酸 还 原 酶 (methylenetetrahydrofolate reductase, MTHFR ) 为 
例 : 首先 进入 KEGG 首 页 ,在 首页 顶端 的 输入 框 中 输入 人 类 亚 甲 基 四 氢 叶 酸 还 原 酶 名 称 
“MTHFR”( 图 3-8 )。 

点 击 搜索 按钮 “GO” 进 入 查询 结果 页 面 (图 3-9 ), 该 页 面 会 列 出 针对 基因 “MTHFR” 在 
KEGG 数 据 库 中 的 搜索 结果 , 除 人 类 外 ,包含 “MTHFR” 基因 的 物种 条 目 也 会 被 列 出 。 

其 中 排 在 第 一 位 的 是 人 类 基因 “MTHFR” 的 相关 信息 ,点 击 该 条 目 进 入 到 详细 信息 页 
面 (图 3-10 )。 

该 页 面 以 表格 的 形式 列 出 了 该 基因 有 关 的 详细 信息 ,包括 基因 编号 ,基因 的 详细 定义 ， 
所 编码 酶 的 编号 ,基因 所 在 通路 ,以 及 序列 的 编码 信息 。 同 时 ,在 页 面 的 右 侧 还 提供 了 该 基 
因 在 其 他 分 子 生物 学 数据 库 的 链接 ,如 OMIM、NCBI、GenBank 等 。 

通过 点 击 相应 的 链接 ,我 们 可 以 进入 该 基因 相应 信息 的 页 面 。 在 pathway 这 一 栏 中 列 出 
了 该 基因 所 在 的 生物 学 通路 ,点 击 编号 为 hsa00670 One carbon pool by folate 通 路 ,进入 到 该 通 
路 的 相应 页 面 (图 3-11 )。 
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» Japanese 
KEGG Home KEGG: Kyoto Encyclopedia of Genes and Genomes 
Release notes 
Current statistics 
Plea from KEGG Plea to Support KEGG 
Since 1995 the KEGG database has been developed in my laboratories 
KEGG Database (Kanehisa Laboratories) at Kyoto University and the University of Tokyo 
Overview thanks to funding from the Japanese Ministry of Education and its agencies. 
KEGG mapping more ... 


KEGG Identifiers 
Pathway maps 


Brita ligrarchigs © Main entry point to the KEGG web service 


KGML KEGG2 KEGG Table of Contents Update notes Help 
KEGG Software © Data-oriented entry points 
KEGG Mapper KEGG PATHWAY KEGG pathway maps [Pathway list] 
KEGG Atlas KEGG BRITE BRITE functional hierarchies [Brite list] 
KegTools KEGG MODULE KEGG modules [Module list] 
KEGG API KEGG DISEASE Human diseases [Disease classification] 
KEGG FTP KEGG DRUG Drugs [ATC drug classification] 
Subscription KEGG ORTHOLOGY Ortholog groups [KO system] 
KEGG GENOME Genomes [KEGG organisms] 
KEGG GENES Genes and proteins Release history 
GenomeNet KEGG LIGAND Chemical information [Compound classification] 
DBGET/LinkDB KEGG MEDICUS Health-related information for wider society 
© Organism-specific entry points 
Feedback 


KEGG Organisms 
Enter org code(s), — — [So] hsa hsa eco 


图 3-8 KEGG 查 询 首 页 





GenomeNet 











Search KEGG efor MTHFR 








Database: KEGG - Search term: MTHFR 
KEGG GENES 


hsa:4524 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H) (EC:1.5.1.20); K00297 methylenetetrahydrofolate 
reductase (NADPH) [EC:1.5.1.20] 

ptr469800 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

pon:100454623 
MTHFR; methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

mmu:17769 
Mthfr, 41323986, 5,10-methylenetetrahydrofolate reductase (EC:1.5.1.20); K00297 
methylenetetrahydrofolate reductase (NADPH) [EC:1.5.1.20] 

mo:362657 
Mthfr methylenetetrahydrofolate reductase (NAD(P)H); K00297 methylenetetrahydrofolate reductase 
(NADPH) [EC:1.5.1.20] 

*** > display all 





DBGET integrated database retrieval system 





图 3-9 MTHFR 基 因 的 KEGG 通 路 查询 结果 


该 编号 为 hsa00670 的 通路 页 面 以 简单 的 几何 图 形 显示 出 相关 生物 过 程 。 图 中 红色 的 方 
框 即 为 基因 “MTHFR” 所 编码 的 酶 , 方 框 里 面 的 1.5.1.20 是 EC 编号 ; 小 圆圈 代表 代谢 物 ,鼠标 
放 上 会 出 现 C x x x x x, CfVXcompound, 五 位 数 编号 x x x x x 是 这 种 化 合 物 在 KEGCG 中 
的 编号 ,大 的 圆 方块 ,表示 男 一 个 代谢 图 ,绿色 的 方 框 表示 这 个 物种 特有 的 基因 或 酶 。 以 此 
就 可 以 通过 该 酶 所 在 位 置 以 及 通路 的 拓扑 结构 来 综合 分 析 基 因 。 此 外 ,可 以 通过 页 面 顶部 
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Klee Homo sapiens (human): 4524 
liti d) 
[Entry [4524 cps H.sapiens All links 


C 


[Definition[methylenetetrahydrofolate reductase (NAD(P)H) (EC:1.5.1.20) 


Pathway (2) 
KEGG- PATHWAY (2) 





Disease (9) 
K00297 methylenetetrahydrofolate reductase (NADPH) [EC:1.5.1.20] KEGG DISEASE (3 
hsa00670 One carbon pool by folate PS nre n g 
emical reaction (3) 
hsa01100 Metabolic pathways KEGG ENZYME (1) 
H00183 Homocystinuria . KEGG REACTION (2) 
#00262 Spina bifida Gennes i a 
H00516 Isolated orofacial clefts aimee (1) 
Metabolism; Metabolism of Cofactors and Vitamins; One carbon pool by eee cone nas a) 
folate [PATH:hsa00670] NCBI-GI (15) 
UniGene (1) 
HGNC (1) 
HPRD (1) 


ENSEMBL-HSA (1) 
Protein sequence (10) 
UniProt (3) 
RefSeq(pep) (1) 
IPI (6) 
NCBI-GI: 87240000 BA eae mh 
z g > e nuc 
NCBI-GeneID: 4524 GenBank (16) 
OMIM: 607093 EMBL (16) 
HGNC: 7436 Protein domain (1) 
4 Pfam (1) 
EPRD: 06198 Àll databases (80) 
Ensembl: ENSG00000177000 


UniProt: P42898 Q59GJ6 Q8IU67 





|MVNEARGNSSLNPCLEGSASSGSESSKDSSRCSTPGLDPERHERLREKMRRRLESGDKWP 
SLEFFPPRTAEGAVNLISRFDRMAAGGPLYIDVTWHPAGDPGSDKETSSMMIASTAVNYC 
GLETILHMICCRQRLEEITGHLHKAKQLGLKNIMALRGDP IGDQWEEEEGGF NYAVDLVK 


图 3-10 人 类 基因 “MTHFR” 的 详细 信息 


Kise One carbon pool by folate - Homo sapiens (human) 


[ Pathway menu | Organism menu | Pathway entry | Download KGML | User data mapping ] 


| Homo sapiens (human) F t fas] [So] 100% [ae] 











ONE CARBON POOL BY FOLATE 














图 3-11 人 类 One carbon pool by folate 通 路 


的 下 拉 列 表 框 来 选择 该 通路 在 其 他 物种 中 的 信息 ,也 可 以 通过 该 列表 框 的 选择 来 查看 相关 
的 基因 、 酶 、 反 应、 化 合 物 等 相关 通路 信息 。 

点 击 通 路 图 上 方 的 pathway entry, 在 出 现 的 页 面 中 点 击 pathway map 按 钮 链接 Ortholog 
table ,就 进入 了 Ortholog table 如 下 的 页 面 ( 图 3-12 ): 
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Ortholog table(ko00670) 
{Eukaryotes [v Page: [1 x 
TA K00287 |  -k13998  Kki13938 K01938 laneo | K00288 K01491  K13403 
| (fo [105] — | (DHFRATS)[44] jdoM)D| (fhs) [9] | (MTHFD) [113]  (fol)D | (MTHFD2) [57] 
| mn Less ese... T 10797 
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— Los bm i 17768  — 
mee penes rie lose 665563 0 
680308 
mop ' 24312, 361472 64300 313410 
— — pepe a 905248 
483107 
kap — oo EE. 476245 jg03952 492197 
100463985 
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| 517538 
\ 
bta p 508809 534296 534382 B36200 
SscP : ] 100154722414382 — (100525706 
" 100053990 
ecbP (100073256 100063441100062154. | 100038423 
mdoP |100012354 100032106|100027684 ane eat! 
oaap o o 0 = 
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QgaP 427317 F 421633 423508 NN 770327 
ingpP 100540725  — (100542162100542376 5 100538988 
tguP 1100229812 100224764100218066 100224318 — 
100566586 
lacsp — 100559043 | 100553949. 100983849 


A^RGAT 


图 3-12 人 类 One carbon pool by folate 通 路 的 Ortholog table 


在 这 个 表 中 , 行 与 物种 对 应 ,3 个 字母 都 是 相应 物 中 的 英文 单词 缩写 ,比如 has 表 示 Homo 
sapiens, mcc 表 示 Macaca mulatta; 列 就 表示 相应 的 Ortholog 分 类 。 如 上 图 同一 物种 后 有 多 个 
条 目 , 则 表示 在 该 物种 中 存在 多 个 蛋白 ,它们 分 别 由 以 上 数字 代表 的 基因 所 编码 ,空白 则 表 
示 在 该 物种 中 不 存在 这 种 酶 。 

点 击 K00287 则 这 一 KO 分 类 信息 及 成 员 列 表 都 可 显示 出 来 ; 点 击 has 则 链接 到 物种 (人 
类 ) 基因组 去 了 ; 点 击 P, 则 显示 相应 的 代谢 通路 。 下 面 我 们 点 击 1719, 如 图 3-13 所 示 : 


Kec Homo sapiens (human): 1719 
er] Dmm 














X00287 dihydrofolate reductase [EC:1.5.1.3] 

hsaD0670 One carbon pool by folate 

hsa00790 Folate biosynthesis 

hsaD1100 Metabolic pathways 

Methotrexate: D00142 002115 

Trimetrexate: D06238 D06239 

Metabolism; Metabolism of Cofactors and Vitamins; Folate biosynthesis 
(PATH: 5200790] 

Metabolism; Metabolism of Cofactors and Vitamins; One carbon pool by 
folate [PATH:hsa00670] 























Pfam: DHFR 1 
PROSITE: DHFR 


ot) IPI (3) 


RetSeq(pep) (1) 





DNÀ M ina e (11) 
/NCBI-GI: 4503323 RefSeq(nuc 


NCBI-GeneID: 1719 
OMIM: 125050 





, PROSITE (1) 
All databases (104) 


图 3-13 KEGG 中 的 人 类 1719 基 因 


如 上 图 ,就 是 我 们 常见 的 一 个 页 面 ,1719 是 KEGG 中 的 基因 ID, H.sapiens 表 示 物 种 ,然后 
是 基因 的 名 称 ,表达 的 酶 ,属于 哪个 KO 分 类 以 及 参与 哪些 代谢 途径 ; 下 面 还 有 结构 .序列 信 
息 等 。 所 以 从 Ortholog table 中 可 以 很 容易 知道 一 张 代谢 通路 上 有 哪些 KO 分 类 ( 酶 类 ), 并 且 
这 些 酶 类 的 成 员 在 各 物种 中 分 配 存 在 的 情况 以 及 特定 的 名 称 。 
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(三 ) KEGG 数 据 库 本 地 化 及 应 用 接口 
KEGG 提 供 了 ftp 服 务 ,可 以 下 载 所 有 的 数据 ,方便 数据 库 的 本 地 化 。 此 外 , KEGG 还 提供 
应 用 程序 接口 (application programming interface, API ), 利 用 KEGG API ,用户 可 以 方便 的 建立 


自己 的 客户 端 ,从 而 获得 最 新 的 数据 。KEGG API 支 持 多 种 编程 语言 ,如 Perl、 Java 等 ,对 操作 
系统 和 对 象 模块 的 选择 也 没有 倾向 性 , 表 3-2 列 出 了 常用 的 KEGG APIPRAC, 


表 3-2 常用 的 KEGG APIK Æt 





函数 Xe 
list, pathways 返回 指定 物种 的 所 有 通路 
get_genes_by_enzyme 返回 指定 物种 中 编码 指定 酶 的 所 有 基因 
get enzymes by gene 返回 指定 物种 中 指定 基因 编码 的 所 有 酶 
get_enzymes_by_compound 返回 所 有 物种 中 催化 指定 化 合 物 的 酶 
get enzymes, by. reaction 返回 所 有 物种 中 催化 指定 反应 的 酶 
get_ko_by_gene 返回 指定 基因 对 应 的 所 有 ko 代码 
get_genes_by_pathway 返回 指定 通路 中 的 所 有 基因 
get_compounds_by_pathway 返回 指定 通路 中 的 所 有 化 合 物 
get_reactions_by_pathway 返回 指定 通路 中 的 所 有 反应 


三 、 其 他 常见 生物 学 通路 数据 库 》》 


Biocarta 数据 库 ( http: //www.biocarta.com/ ) 是 较 常用 的 通路 数据 ,可 以 用 来 研究 分 子 互 
作 关 系 、 富 集 分 析 、 通 路 为 基础 的 研究 等 。 从 分 子 的 关系 角度 描绘 了 一 个 网 络 图 模型 。 是 “ 开 
UR” 数据 库 的 典型 代表 法 ,通过 社区 论坛 而 成 长 起 来 的 数据 库 , 通 过 不 断 整 合 重 白质 组 信息 
迅速 发 展 壮 大 起 来 。 它 还 提供 了 目录 并 且 总 结 了 12 万 多 个 多 物种 的 基因 信息 的 重要 资源 。 
发 现 了 过 去 的 已 有 的 通路 的 同时 也 发 现 了 一 些 新 的 通路 。 其 中 , Biocarta 是 目前 上 覆盖 范围 
最 广 的 信号 通路 数据 库 , 包 含 了 大 量 的 通路 细节 知识 ,方便 进行 单个 分 子 的 查询 ,但 是 单个 
通路 规模 较 小 ,不 提供 批量 下 载 。 人 类 生物 学 反应 及 信号 通路 数据 库 Reactome( http: //www. 
reactome.org ) 是 一 个 汇集 了 由 专家 撰写 ,经 同行 评阅 的 有 关 人 体内 各 项 反应 及 生物 学 路 符 
的 文章 的 数据 库 ,该 数据 库 相 当 于 一 个 有 效 的 数据 资源 以 及 电子 图 书 。 该 数据 库 为 人 们 提 
供 了 一 个 全 新 的 从 整体 水 平 上 对 生物 学 途径 进行 研究 的 工具 ,同时 , 它 也 是 一 个 改良 的 搜索 
及 数据 挖掘 工具 ,可 以 简化 与 生物 学 途径 相关 的 数据 搜索 与 研究 。 此 外 ,对 用 户 提 供 的 高 通 
量 数 据 组 进行 分 析 , 也 变 得 更 为 简单 。 目 前 ,由 于 直系 同 源 预测 方法 的 改进 ,反应 组 学 数据 
库 也 开始 收录 其 他 模式 生物 的 数据 了 ,现在 通过 与 其 他 数据 库 合 作 和 人 工 注释 方式 ,已 经 收 
录 了 包括 拟 南 芥 ( Arabidopsis ) 水 稻 ( Oryza sativa ) 果 蝇 ( Drosophila ) 及 原 鸡 ( Gallus gallus ) 
等 22 种 模式 物种 的 反应 组 学 数据 。 反 应 组 学 的 数据 库 内 容 和 相关 软件 都 是 开源 共享 ,免费 
使 用 的 。Reactome 作 为 经 典 的 通路 数据 库 建 立时 间 较 早 , 图 示 清 楚 , 下 载 方便 ,但 与 Biocarta 
相 比 包含 的 通路 数据 不 够 全 面 , STKE 数 据 库 由 通路 专家 进行 收集 整理 ,包括 通用 的 细胞 信 
号 数据 和 部 分 组 织 细胞 中 特殊 的 信号 过 程 ,具有 内 容 较 详细 但 通路 数目 较 少 的 特点 。AfCS 
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数据 库 以 信号 分 子 为 基础 ,提供 其 参与 的 相互 作用 及 信号 通路 图 ,包含 了 AfCS 项 目 最 新 的 
研究 成 果 。 而 Pathway Interaction Database 专门 收集 人 的 信号 通路 ， 包含 了 大 量 文 献 挖 
掘 得 到 的 信号 通路 ,并 且 从 Biocarta 和 Reactome 中 导入 了 大 部 分 的 信号 通路 , 适 于 人 的 
信号 通路 分 析 。 此 外 , AMAZE 数据 库 采 用 专门 的 数据 模型 ,可 将 单个 生物 分 子 和 相互 作用 
整合 进 细胞 过 程 。 其 他 常用 的 信号 和 代谢 通路 数据 库 详 见 表 3-3。 

表 3-3 其 他 常用 的 信号 和 代谢 通路 数据 库 





数据 库 ` ee act ag ie 描述 
PID http: //pid.nci.nih.gov 文献 挖掘 的 人 信号 通路 数据 库 
STKE http: //stke.sciencemag.org 参与 信号 转 导 的 分 子 及 其 相互 作用 关系 的 信息 
AfCS http: //www.signaling-gateway.org 参与 信号 通路 的 蛋白 质 相 互 作用 和 信和 号 通路 图 
AMAZE http: //www.amaze.ulb.ac.be 对 细胞 过 程 的 相关 信息 进行 ,注释 和 分 析 
BIND http: //www.bind.ca 提供 参与 通路 的 分 子 的 序列 和 相互 作用 信息 
DOQCS http: //doqcs.cbs.res.in 细胞 信号 通路 的 量化 数据 库 
SigPath http: //sigpath.org 提供 细胞 信号 通路 的 量化 信息 
MetaCyc http: //biocyc.org/metacyc/ 微生物 为 主 的 多 个 物种 的 酶 和 代谢 途径 数据 库 
EcoCyc http: //biocyc.org/ecocyc/ 大 肠 埃 希 菌 ( K-12 ) 基因组 、 基 因 产 物 和 代谢 通路 


UM-BBD http: //www.labmed.umn.edu/umbbd/ 微生物 生物 催化 反应 和 生物 降解 通路 
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Section 3 Gene Function Prediction 


一 基因 功能 预测 的 目的 和 意义 >> 


目前 ,大 量 参与 重要 生命 活动 的 基因 功能 仍然 未 知 。 因 此 ,生物 信息 学 的 重要 任务 之 
一 是 在 全 基因 组 范围 内 对 基因 功能 进行 预测 。 传 统 的 基因 功能 预测 方法 主要 依赖 于 序列 的 
同 源 性 ,而 近来 已 经 发 展 了 很 多 基于 GO 数据 库 或 KEGG 数 据 库 的 方法 ,利用 高 通 量 的 基因 表 
达 和 和 蛋白 质 互 作 数据 进行 功能 预测 ,其 中 一 些 新 开发 的 方法 试图 整合 多 种 数据 类 型 ,通过 构 
建功 能 相关 网 络 的 方式 预测 基因 功能 (图 3-14 )。GO 数 据 库 包含 了 基因 参与 的 生物 过 程 , 所 
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处 的 细胞 位 置 及 具有 的 分 子 功能 三 方面 功能 信息 ,通过 GO 中 的 注释 信息 ,可 以 对 基因 的 功 
能 进行 预测 。KEGG 是 系统 分 析 基 因 功 能 、 联 系 基 因 组 信息 和 功能 信息 的 知识 库 , KEGG 的 
PATHWAY 数据 库 提供 了 基因 编码 的 生物 学 大 分 子 酶 或 者 蛋白 质 在 生命 体内 相互 联系 相互 
影响 的 情况 。 同 一 生物 学 通路 内 的 基因 大 多 参与 了 此 代谢 通路 所 揭示 的 生命 过 程 。 根 据 功 
能 相似 的 基因 可 能 导致 相似 的 表 型 这 一 依据 ,可 以 通过 网 络 拓扑 性 质 对 基因 的 功能 进行 预 
测 , 并 利用 GO 和 KEGG 功 能 富 集 分 析 方 法 进行 进一步 的 预测 。 当 前 基于 GO 或 KEGG 的 基因 
功能 预测 策略 一 般 为 : 首先 ,从 总 体 上 宏观 地 概括 抽取 信息 ,如 不 同样 本 间 不 同时 间 点 间 全 
部 差异 基因 ; 其 次 ,通过 G0 或 KEGG 分 析 , 即 从 GO 分 类 结果 找到 实验 涉及 的 显著 功能 类 别 或 
将 差异 基因 映射 到 通路 中 ,根据 基因 在 通路 中 的 位 置 及 表达 水 平 的 变化 算出 受 影响 显著 的 
通路 ,从 而 预测 未 知 的 基因 功能 。- 


二 基因 功能 预测 的 基本 原理 >>: 


基于 GO 或 KEGG 的 基因 功能 预测 通常 需要 定义 基因 集 , 基 因 集 的 定义 基于 统一 的 先 验 
生物 学 知识 ,如 已 发 表 的 有 关 基 因 共 表达 生物 通路 等 。 一 个 基因 集 是 基因 芯片 上 一 组 具有 
相同 生物 学 功能 或 位 于 同一 生物 通道 的 基因 ,产生 基因 集 的 数据 包括 基因 表达 谱 数据 和 和 蛋 
白质 互 作 数据 。 


(一 ) 基于 GO 的 基因 功能 预测 


1. 对 差异 表达 基因 进行 功能 预测 

GO 应 用 的 一 个 重要 方面 就 是 用 来 指导 基于 基因 表达 谱 数 据 的 基因 功能 预测 。 在 基因 
芯片 的 数据 分 析 中 ,研究 者 可 以 找 出 哪些 差异 表达 基因 属于 一 个 共同 的 GO 功能 分 支 ,并 用 
统计 学 方法 检验 结果 是 否 具 有 统计 学 意义 ,从 而 得 出 差异 表达 基因 主要 参与 了 哪些 生物 
功能 。 

目前 ,大 量 的 基因 功能 预测 方法 利用 GO 作为 功能 分 类 的 来 源 或 结果 证 实 。 在 已 知 的 大 
多 数 相关 研究 中 ,研究 者 首先 将 感 兴趣 基因 注释 到 CO 上 ,然后 筛选 出 显著 性 富 集 的 CO 结 点 
作为 功能 标签 ,考察 这 组 基因 是 否 共同 注释 到 同一 个 功能 结 点 上 ,或 注释 的 结 点 是 同一 个 结 
点 的 直接 子 结 点 ,并 认为 这 样 的 基因 具有 相似 的 功能 ,这 项 工作 实现 了 对 未 知 基因 功能 预 
测 ,是 CO 结构 信息 的 进一步 发 掘 。 这 是 直接 利用 GO 注释 的 方法 进行 基因 功能 预测 。 

目前 许多 已 知 功能 的 基因 只 注释 到 了 描述 很 不 具体 的 功能 类 , 称 之 为 已 知 部 分 功能 的 
蛋白 质 。 显 然 寻 找 这 些 基因 的 精细 功能 对 于 了 解 这 些 基 因 和 提供 必要 的 数据 来 学 习 其 他 基 
因 的 功能 都 具有 重要 意义 。 为 了 寻找 已 知 部 分 功能 的 基因 更 精细 的 功能 ,目前 有 一 种 深层 
预测 算法 : 该 算法 利用 蛋白 质 互 作 数 据 , 将 基因 从 其 已 注释 到 的 功能 类 向 下 预测 一 层 或 多 
层 ,发 现 其 更 精细 的 功能 。 由 于 已 知 部 分 功能 的 基因 参与 一 个 子 功 能 类 的 先 验 概率 增 大 , 98 
测 的 可 靠 性 可 能 会 提高 ,因此 使 用 注释 到 同一 个 功能 类 中 的 基因 可 以 过 滤 部 分 假 阳性 互 作 。 

具体 做 法 为 : 首先 , 选 定 一 个 CO 结 点 作为 深层 预测 的 目标 结 点 ,定义 它 的 任何 一 个 祖先 
结 点 为 预测 空间 ,按照 CO 注释 的 提示 ,将 注释 到 预测 空间 而 没有 注释 到 它 的 任何 一 个 子 结 
点 的 基因 定义 为 已 知 部 分 功能 的 基因 , 即 预测 对 象 ; 然后 ,通过 连接 注释 在 预测 空间 中 互 作 
的 基因 构建 一 个 功能 特异 的 子 网 ,孤立 的 基因 被 排除 在 外 ,在 互 作 子 网 中 ,注释 到 目标 结 点 
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的 蛋白 质 被 当 作 阳性 样本 ,而 除 预 测 对 象 外 的 其 他 蛋白 质 被 当 作 阴 性 样本 。 

通常 一 个 蛋白 质 被 赋予 与 其 直接 相互 作用 的 邻居 和 蛋白质 中 出 现 频率 最 高 的 几 个 功能 。 
尽管 一 个 蛋白 质 可 以 执行 多 个 功能 ,这 里 选择 只 为 蛋白 质 赋予 一 个 可 信和 度 最 高 的 子 功能 。 
因为 目标 结 点 中 阳性 样本 要 和 预测 空间 中 所 有 其 他 子 结 点 的 阴性 样本 竞争 ,因此 修改 大 数 
法 对 于 预测 一 个 阳性 结果 来 说 是 保守 的 。 可 以 采用 留 一 法 来 评价 分 类 器 的 预测 效果 。 每 一 
个 训练 样本 都 要 被 轮流 留 出 来 作为 测试 样本 。 计 算 真 阳性 (TP )、 真 阴性 ( TN ).\ 假 阳性 ( FP ) 
和 假 阴 性 ( FN ), 再 计算 精确 度 、 履 盖 率 和 F 指 标 。 基 于 蛋白 质 互 作 数据 和 深层 预测 方法 ,以 
高 于 90% 的 精确 率 ,为 几 千 个 已 知 部 分 功能 的 酵母 和 人 类 和 蛋白 质 预测 了 精细 的 功能 。 预 测 
的 精细 功能 对 于 指导 随后 的 实验 和 提供 必要 的 功能 知识 来 学 习 其 他 蛋白 质 的 功能 都 具有 重 
要 的 意义 。 

2. 蛋白 质 互 作 网 络 用 于 基因 功能 预测 

传统 的 基因 功能 注释 及 预测 方法 是 根据 基因 相关 的 一 些 统计 特征 集 , 利 用 机 器 学 习 
方法 来 得 出 功能 注释 的 规则 用 于 预测 。 基 因 功 能 实现 的 复杂 性 以 及 功能 定义 的 模糊 性 ， 
使 得 传统 的 利用 特征 预测 的 方法 很 难 准确 地 进行 预测 。 而 蛋白 质 相互 作用 网 络 能 够 利 
用 和 蛋白质 之 间 的 相关 性 ,对 未 知 功 能 的 基因 进行 注释 。 目 前 ,利用 相互 作用 网 络 进行 功 
能 注释 主要 有 两 种 方法 ， 即 直接 注释 方法 ( direct annotation schemes ) 和 基于 模块 的 方法 
(module assisted schemes )。 

(1 ) 直 接 注释 方法 : 直接 注释 方法 根据 网 络 中 某 个 蛋白 质 的 连接 情况 直接 推测 该 蛋白 
质 的 功能 。 这 类 方法 基于 的 假设 是 : 在 蛋白 质 相 互 作用 网 络 中 ,距离 相近 的 两 个 蛋白 质 更 加 
倾向 于 拥有 相似 的 功能 。 而 通过 两 蛋白 质 在 网 络 中 的 距离 来 计算 并 判断 这 两 个 蛋白 质 功 能 
相似 性 有 许多 的 方法 : 由 邻居 结 点 计算 法 ( neighborhood counting ): 这 种 方法 是 最 简便 也 是 
相对 较 早 出 现 的 方法 。 它 根据 网 络 中 某 个 蛋白 质 直 接 相 关 的 邻居 已 知 蛋 白质 的 功能 来 确定 
该 未 知 蛋 白质 的 功能 注释 。 这 种 方法 假设 某 未 知 蛋 白质 的 邻居 中 有 超过 n 个 蛋白质 具有 一 
样 的 功能 ,就 将 这 种 功能 赋予 该 蛋白 质 。 这 种 方法 虽然 简单 并 且 有 了 时候 非常 有 效 ,然而 它 在 
功能 注释 过 程 中 不 能 为 这 种 关联 性 提供 非常 有 显著 意义 的 解释 ,并 且 它 也 没有 考虑 到 网 络 
的 全 局 拓扑 结构 。@ 图 论 方法 ( graph theoretic method ): 图 论 方法 不 同 于 邻居 结 点 计算 法 ， 
它 可 以 考虑 网 络 的 全 局 拓扑 结构 ,基本 思路 是 : 对 一 个 未 知 功能 蛋白 质 赋予 某 种 功能 ,要 使 
得 注释 为 相同 功能 的 蛋白 质 (未 注释 或 者 已 注释 ) 的 连接 数目 最 多 。@) 马 尔 可 夫 随 机 场 方 
法 ( Markov random field method ): 注释 方法 中 有 许多 基于 概率 的 方法 ,它们 均 基 于 马 可 夫 假 
i: 蛋白 质 的 功能 独立 于 与 其 直接 相 邻 的 邻居 之 外 的 所 有 和 蛋白质。 根据 这 个 假设 ,人 们 也 提 
出 了 马 可 夫 随机 场 模型 用 于 蛋白 质 功能 的 注释 。 

( 2) 基于 模块 的 方法 : 基于 模块 的 方法 首先 将 网 络 相关 的 蛋白 质 组 成 不 同 的 模块 ,然后 
根据 该 模块 中 成 员 的 功能 来 得 到 整个 模块 所 共有 的 可 能 的 功能 ,从 而 用 来 预测 其 中 未 知 成 
员 的 功能 。 一 个 功能 模块 指 其 中 的 蛋白 质 所 处 的 细胞 位 置 以 及 相互 作用 使 得 它们 可 以 实现 
一 个 特定 的 功能 。 而 基于 功能 模块 的 蛋白 质 功能 注释 方法 也 不 再 单独 预测 单个 蛋白 质 的 功 
能 ,而 是 试图 发 现 模块 中 所 有 和 蛋白 质 的 共同 内 在 的 功能 。 一 旦 模块 确定 ,那么 可 以 通过 一 些 
简单 的 方法 来 预测 其 功能 ,比如 该 模块 中 如 果 大 部 分 的 蛋白 质 都 具有 某 种 功能 ,那么 这 种 功 
能 就 将 赋予 该 模块 。 对 蛋白 质 相互 作用 网 络 进行 模块 划分 的 常用 方法 有 以 下 几 种 : 中 分 级 
聚 类 方法 ( hierarchical clustering based methods ): 聚 类 就 是 将 相似 功能 的 蛋白 质 归 为 同一 类 
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(模块 )。 分 级 聚 类 的 关键 问题 是 如 何 评判 蛋白 质 对 之 间 的 相似 性 ,最 简单 的 方法 是 以 两 个 
蛋白 质 之 间 的 距离 作为 基准 。 但 是 在 分 级 聚 类 中 ,大 量 蛋 白质 对 之 间 的 距离 都 是 相同 的 , 通 
常 认为 同一 个 模块 中 的 蛋白 质 成 员 更 加 可 能 拥有 最 短 的 路 径 距 离谱 ( path distance profiles )。 
根据 这 个 假设 ,所 有 短路 径 的 蛋白 质 对 聚 成 一 类 。 这 个 方法 实施 比较 复杂 ,很 难 在 整个 基因 
组 水 平 上 的 网 络 上 进行 分 析 , 但 在 一 些 子 网 络 中 它 已 经 得 到 很 好 的 应 用 ,比如 对 酿酒 酵母 的 
核 蛋 白 的 相互 作用 网 络 分 析 。@) 图 形 聚 类 方法 (graph clustering methods ): 大 量 的 图 形 聚 类 
方法 也 用 于 图 形 化 描述 二 元 相互 作用 。 早 期 的 图 形 聚 类 方法 用 于 相互 作用 网 络 模块 的 构建 
主要 有 两 类 ,一 类 是 基于 SPC 聚 类 ( super paramagnetic clustering ) 方 法 , 另 一 类 为 基于 蒙特 卡 
洛 算法 (monte carlo algorithm )。 其 中 SPC 算 法 在 决定 那些 内 部 密度 很 高 但 松散 的 连接 于 其 
他 部 分 的 模块 效果 非常 好 。 在 最 近 , 又 不 断 发 展 出 许多 新 的 图 形 聚 类 算法 ,如 高 连通 子 图 算 
法 (highly connected sub graphs, HCS ) 有 限 邻 居 搜 索 聚 类 算法 (restricted neighborhood search 
clustering, RNSC ) 以 及 马尔 可 夫 聚 类 算法 ( markov clustering, MCL ) 等 。 


(=) 基于 KEGG 通 路 分 析 的 基因 功能 预测 


通路 分 析 是 现在 经 常 被 使 用 的 芯片 数据 基因 功能 分 析 法 。 与 CO 分 类 法 (应 用 单个 基因 
的 CO 分 类 信息 ) 不 同 ,通路 分 析 法 利用 的 资源 是 许多 已 经 研究 清楚 的 基因 之 间 的 相互 作用 ， 
即 生物 学 通路 。 研 究 者 可 以 把 表达 发 生变 化 的 基因 集 导 和 人 通路 分 析 软 件 中 ,进而 得 到 变化 
的 基因 都 存在 于 哪些 已 知 通路 中 ,并 通过 统计 学 方法 计算 哪些 通路 与 基因 表达 的 变化 最 为 
相关 。 现 在 已 经 有 丰富 的 数据 库 资 源 帮助 研究 人 员 了 解 及 检索 生物 学 通路 ,对 芯片 的 结果 
进行 分 析 。 主 要 的 生物 学 通路 数据 库 有 以 下 两 个 : DKEGG 数 据 库 : 迄今 为 止 , KEGG 数 据 
库 是 向 公众 开放 的 最 为 著名 的 生物 学 通路 方面 的 资源 网 站 。 在 这 个 网 站 中 ,每 一 种 生物 学 
通路 都 有 专门 的 图 示 说 明 。G@)BioCarta 数 据 库 : BioCarta 是 一 家 生物 技术 公司 , 它 在 其 公共 
网 站 上 提供 了 用 于 绘制 生物 学 通路 的 模板 。 研 究 者 可 以 把 符合 标准 的 生物 学 通路 提供 给 
BioCarta 数 据 库 。BioCarta 数 据 库 不 会 检验 这 些 生 物 学 通路 的 质量 ,因此 其 中 的 资源 质量 参 
差 不 齐 ,并 且 有 许多 相互 重复 。 然 而 BioCarta 数 据 库 数据 量 巨大 , 且 不 同 于 KECG 数 据 库 , 包 
含 了 大 量 代 谢 通路 之 外 的 生物 学 通路 ,所 以 也 得 到 广泛 的 应 用 。 

芯片 数据 通路 分 析 的 第 一 步 是 差异 基因 的 通路 定位 (图 3-15 ), 一 些 商业 软件 如 Cenespring 
可 以 做 到 ,基于 EASE 算 法 的 开放 在 线程 序 DAVID 也 可 以 实现 定位 。 目 前 的 通路 分 析 方 法 还 
存在 很 多 局 限 性 ,例如 只 注意 到 基因 集合 定位 到 了 哪个 通路 而 忽略 了 其 在 通路 中 的 位 置 ,如 
果 一 个 通路 由 某 个 基因 产物 触发 或 被 单个 受 体 激活 ,并 且 特 定 的 蛋白 没有 表达 ,这 个 通路 就 
会 受到 严重 影响 甚至 关闭 ; 相反 ,如 果 多 个 基因 与 某 个 通路 相关 但 都 只 出 现在 通路 的 下 游 ， 
那么 其 表达 水 平 的 变化 就 可 能 不 会 对 通路 造成 很 大 影响 。 另 外 ,一 些 基因 往往 有 多 个 功能 
分 布 于 不 同 的 通路 发 挥 不 同 的 作用 ,要 得 到 相对 准确 的 结果 还 必须 考虑 通路 的 拓扑 结构 。 
目前 很 少 有 能 将 基因 差异 表达 值 变 化 应 用 于 通路 分 析 的 方法 , Pathwayexpress 提 出 了 一 种 基 
于 IF( impact factor ) 的 通路 分 析 方 法 ,综合 了 差异 基因 的 标 化 的 差异 表达 值 .通路 中 基因 的 
统计 学 显著 性 以 及 信和 号 通路 的 拓扑 学 三 方面 内 容 。Pathwayexpress 主 要 基于 KEGG 库 ,结果 
输出 中 自动 把 差异 基因 以 不 同 颜色 定位 于 通路 中 ,红色 为 上 调 , 蓝 色 为 下 调 , 这 些 定位 着 上 
调和 下 调 基 因 的 通路 图 可 以 在 Java 控 制 台 中 找到 绝对 路 径 , 在 浏览 器 中 打开 或 保存 ,也 可 以 
GMI 格 式 导出 ,然后 直接 导 和 人 Cytoscape, 用 merge 结 点 功能 把 多 个 相关 pathway 连 接 起 来 , 显 
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图 3-15 通过 表达 谱 数 据 进行 通路 定位 


示 互 作 网 络 ,并 分 别 以 红 蓝 色 显 示 显 著 性 通路 中 上 调 下 调 的 基因 ( 结 点 ), 以 及 这 些 基 因 与 其 
他 基因 间 的 相互 作用 ( 边 ), 可 以 从 不 同 视 角 观 察 其 位 置 ,不断 放 大 就 可 以 看 到 结 点 的 基因 名 
称 。 其 他 的 可 视 化 工具 还 有 pathwaystudio genmapp, 、arrayxpath 、osprey 等 。Biolayout 也 是 一 
款 分 子 作 用 网 络 展示 工具 ,所 不 同 的 是 结果 为 三 维 图 形 界面 


三 基因 功能 预测 的 常用 工具 S)» 


(一 ) 基于 GO 的 基因 功能 分 析 软 件 

EASE( expressing analysis systematic explorer ) 是 比较 早 的 用 于 必 片 功能 分 析 的 网 络 平台 
由 美国 国立 卫生 研究 院 ( NIH ) 的 研究 人 员 开 发 。 研 究 者 可 以 用 多 种 不 同 的 格式 将 芯片 中 
得 到 的 基因 导入 EASE 进行 分 析 , EASE 会 找 出 这 一 系列 的 基因 都 存在 于 哪些 CO 分 类 中 。 其 
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最 主要 特点 是 提供 了 一 些 统计 学 选项 以 判断 得 到 的 GO 分 类 是 否 符合 统计 学 标准 。EASE 能 
进行 的 统计 学 检验 主要 包括 Fisher 精确 概率 检验 ,或 是 对 Fisher 精 确 概率 检验 进行 了 修饰 的 
EASE 得 分 ( EASE score )。 

由 于 进行 统计 学 检验 的 CO 分 类 的 数量 很 多 ,所 以 EASE 采 取 了 一 系列 方法 对 “多 重 
检验 ”的 结果 进行 校正 。 这 些 方法 包括 Bonferroni 校 正法 、Benjamini falsediscovery rate 和 
bootstraping。 同年 出 现 的 基于 CGO 分 类 的 芯片 基因 功能 分 析 平 台 还 有 底特律 韦 恩 大 学 开发 的 
Onto-Express。2002 年 , Norway 大 学 和 Uppsala 大 学 联合 推出 的 Rosetta 系统 将 G0 分 类 与 基因 
表达 数据 相 联系 ,引入 了 “最 小 决定 法 则 ”( minimal decision rules ) 的 概念 。 它 的 基本 思想 
是 在 对 多 张 芯 片 结果 进行 聚 类 分 析 之 后 ,与 表达 模式 不 相近 的 基因 相 比 ,相近 的 基因 更 有 可 
能 参与 相同 的 生物 学 功能 的 实现 。 比 较 著 名 的 基于 GO 分 类 法 的 芯片 数据 分 析 网 络 平台 还 
有 很 多 ,这 里 列举 了 其 中 的 一 部 分 ( 表 3-4 ): 


表 3-4 用 GO 分 类 法 进行 芯片 功能 分 析 的 网 络 平台 





平台 名 称 网 址 
Onto-Tools http: //vortex.cs.wayne.edu/projects.htm 
ROSETTA http: //rosetta.lcb.uu.se/general/ 
GOToolBox http: //burgundy.cmmt.ubc.ca/GOToolBox/ 
GOstat http: //gostat.wehi.edu.au/ 
GFINDer http: //www.medinfopoli.polimi.it/GFIN Der/ 
FatiGO http: //www.fatigo.org/ 
EASE http: //david.abec.nciferf.gov/ease/ease.jsp 


(=) 基于 KEGG 的 基因 功能 分 析 软 件 


最 先 出 现 的 通路 分 析 软 件 之 一 是 GenMAPP( gene microarray pathway profiler ), 它 可 以 免 
费 使 用 ,其 最 新 版 本 为 Gen-MAPP2。 在 这 个 软件 中 ,使 用 者 可 以 用 几 种 灵活 的 文件 格式 输 
人 自己 的 表达 谱 数 据 , GenMAPP 的 基因 数据 库 包 含 许多 从 常用 的 资源 中 得 到 的 物种 特异 性 
的 基因 注释 和 识别 符 (ID )。 这些 ID 可 以 将 使 用 者 输入 的 基因 与 不 同 的 生物 学 通路 的 基因 联 
系 起 来 。 这 些 生 物 学 通路 存在 于 GenMAPP 的 MAPP 文 件 中 。MAPP 文 件 需 要 时 常 下 载 更 新 。 
它 包 含有 许多 KEGG 生 物 学 通路 ,一 些 GenMAPP 自 己 的 生物 学 通路 和 许多 GO 分 类 的 MAPP 文 
件 , 全 部 操作 简单 明了 。 而 且 依 靠 其 自 带 的 MAPPBuilder 和 MAPPFinder 两 个 软件 ,使 用 者 可 
以 自己 绘制 生物 学 通路 和 对 MAPP 文件 进行 检索 。 由 于 使 用 者 可 以 自己 绘制 生物 学 通路 保 
存 为 MAPP 格 式 , 而 且 这 个 文件 很 小 , 易 在 网 络 上 传播 ,所 以 GenMAPP 数 据 库 更 有 利于 研究 
者 之 间 的 及 时 交流 。 由 于 上 述 特点 , GenMAPP 数 据 库 及 软件 仍 是 现今 免费 平台 里 应 用 比较 
广泛 的 。 

2004 年 发 表 的 Pathway Miner 也 是 应 用 较为 广泛 的 免费 通路 分 析 网 络 平台 ,由 美国 亚 利 
桑 那 大 学 癌症 中 心 建立 维护 ,其 最 突出 的 特点 就 是 信息 全 面 ,操作 简便 。 使 用 者 可 以 在 这 
个 网 站 中 获得 单个 基因 的 序列 .功能 注释 ,以 及 有 关 它 们 编码 的 蛋白 结构 功能 ,组 织 分 布 ， 
OMIM 等 信息 。 对 于 通路 分 析 部 分 ,使 用 者 给 出 基因 和 集 及 它们 的 表达 变化 值 ,网 站 可 以 根据 
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三 大 公用 的 通路 数据 库 : KEGG、GenMAPP 和 BioCarta, 生 成 变化 基因 参与 的 通路 ,并 用 Fisher 
精确 概率 检验 。PathwayMiner 自 动 把 得 到 的 通路 分 成 两 大 类 : 代谢 通路 和 细胞 调节 通路 。 方 
便 使 用 者 根据 不 同 的 研究 目的 选择 需要 查看 的 结果 。 在 2006 年 国内 也 开发 了 用 于 通路 分 析 
的 网 络 平台 , 即 KOBAS(CKO-Based annotation system ), 其 基于 KEGG 数 据 库 建立 ,由 北京 大 学 
生命 科学 院 开 发 和 维护 。 其 特点 是 可 直接 采用 基因 或 蛋白 质 的 序列 录入 基因 ,并 对 录入 的 
基因 集 进行 KO 注释 。 对 于 结果 的 可 靠 性 检验 提供 了 四 种 统计 方法 。 使 用 者 可 以 在 网 站 进 
行 注册 ,网 站 会 为 使 用 者 保存 输入 的 数据 ,方便 日 后 直接 调用 。 最 近 推 出 的 软件 Eu.Gene 整 
合 了 来 自 KEGG、Gen-MAPP 以 及 Reactome 的 通路 数据 ,并 采用 Fisher 精 确 概率 检验 及 基因 和 集 
富 集 分 析 ( Gene Set Enrichment Analysis, GSEA ) 来 检验 结果 是 否 具有 统计 学 意义 。 这 里 列 
举 了 部 分 通路 分 析 的 网 络 平台 及 它们 的 网 址 ( 表 3-5 )。 


表 3-5 通路 分 析 网 络 平台 


FP EL 
GenMAPP http: //www.genmapp.org/ 
PathwayMiner http: //www.biorag.org/pathway.html 
KOBAS http: //kobas.cbi.pku.edu.cn 
GEPAT http: //gepat.bioapps.biozentrum.uni—wuerzburg.de/GEPAT/index.faces 
VitaPad ; http: //bioinformatics.med.yale.edu/group 
KEGGanim http: //biit.cs.ut.ee/kegganim/ 
WholePathwayScope http: //www.abcc.nciferf.gov/wps/wps index.php 
VisANT 3.0 http: //visant.bu.edu/ 


Eu.Gene http: //www.ducciocavalieri.org/bio/Eugene.htm 





第 四 节 - 
基因 集合 富 集 分 析 


Section 4 Gene Set Enrichment Analysis 


一 、 富 集 分 析 的 目的 和 意义 >> 


已 建立 的 基因 及 其 产物 注释 数据 库 包含 了 丰富 的 知识 和 复杂 的 结构 ,促使 研究 人 员 开 
展 以 注释 数据 库 为 知识 基础 的 基因 功能 研究 ,以 便 更 好 地 利用 注释 系统 。 一 组 基因 直接 注 
释 的 结果 是 得 到 大 量 的 功能 结 点 。 这 些 功 能 具有 概念 上 的 交 驮 现象 ,导致 分 析 结 果 元 余 , 不 
利于 进一步 的 精细 分 析 , 所 以 研究 人 员 和 希望 对 得 到 的 功能 结 点 加 以 过 滤 和 筛选 ,以 便 获 得 更 
有 意义 的 功能 信息 。 目 前 最 常用 的 方法 是 基于 GO 或 KEGG 的 富 集 分 析 。 人 们 通过 多 种 方法 
获得 大 量 的 感 兴趣 基因 ,如 差异 表达 基因 和 集 、 共 表达 基因 模块 、 蛋 白 复合 物 基因 簇 等 ,然后 寻 
找 这 些 感 兴趣 基因 和 集 显著 富 集 的 G0 结 点 或 KEGG 通 路 ,这 有 助 于 指导 进一步 深入 细致 的 实 


二 、 富 集 分 析 的 基本 原理 >> 


传统 的 单 基因 分 析 方 法 存在 许多 缺陷 ,如 难以 对 芯片 分 析 中 筛选 出 大 量 的 差异 表达 
基因 合理 的 解释 .未 考虑 基因 间 相 互 作用 不 能 有 效 地 利用 一 些 先 验 信息 .差异 表达 基因 
可 重复 性 差 等 问题 。 为 了 克服 单 基 因 分 析 的 诸多 缺点 ,提出 了 基于 已 定义 的 基因 集 ( gene 
set ) 进行 分 析 的 方法 一 一 基因 富 集 分 析 ( gene set enrichment analysis, GSEA )。 基 因 集 
的 定义 基于 统一 的 先 验 生物 学 知识 ,如 已 发 表 的 有 关 生 物 通 道 、 基 因 共 表达 信息 等 。 一 
个 基因 集 是 指 一 组 具有 相同 生物 学 功能 或 位 于 同一 生物 通道 的 基因 。 最 常用 于 基因 集 
的 基因 注释 数据 库 有 Gene Ontology( GO ) 和 KEGG。 一 组 基因 直接 注释 的 结果 是 得 到 大 
量 的 功能 结 点 。 这 些 功能 具有 概念 上 的 交 故 现象 ,导致 分 析 结 果 宛 余 , 不 利于 进一步 的 
精细 分 析 , 所 以 研究 人 员 和 希望 对 得 到 的 功能 结 点 加 以 过 滤 和 筛选 ,以便 获 得 更 有 意义 的 
功能 信息 。 目 前 最 常用 的 方法 是 基于 GO 或 KEGG 的 富 集 分 析 。 人 们 通过 多 种 方法 获得 
大 量 的 感 兴趣 基因 ,如 差异 表达 基因 和 集 、 共 表达 基因 模块 .蛋白 复合 物 基因 艇 等 ,然后 寻 
找 这 些 感 兴趣 基因 集 显 著 富 集 的 CO 结 点 或 KEGG 通 路 ,这 有 助 于 指导 进一步 深入 细致 的 
实验 研究 。 
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因此 , 富 集 分 析 方 法 通常 是 分 析 一 组 基因 在 某 个 功能 结 点 上 是 否 过 出 现 ( over- 
presentation )。 这 个 原理 可 以 由 单个 基因 的 注释 分 析 发 展 到 大 基因 集合 的 成 组 分 析 。 由 于 分 
析 的 结论 是 基于 一 组 相关 的 基因 ,而 不 是 根据 单个 基因 ,所 以 富 集 分 析 方 法 增加 了 研究 的 可 
靠 性 ,同时 也 能 够 识别 出 与 生物 现象 最 相关 的 生物 过 程 。 富 集 分 析 中 常用 的 统计 方法 有 累 
计 超 几何 分 布 、Fisher 精 确 检验 等 。 

累计 超 几 何 分 布 公式 : 








es es 
2$ XJUM—x 
A -E ESE, 
M 
其 中 入 为 注释 系统 中 基因 总 数 ,n 为 将 要 考察 的 结 点 或 通路 本 身 注释 的 基因 数 , m 为 感 兴 
趣 的 基因 集 大 小 ,x 为 基因 和 集 与 结 点 或 通路 的 交集 数目 。 


Fisher 精 确 检验 公式 : 
: + Jt + 2 
| g £ (3-2) 


= 


1 为 系统 中 基因 和 总数, a 为 感 兴趣 的 基因 集中 的 基因 数目 , b 为 将 要 考察 的 结 点 或 通路 本 
身 所 注释 的 基因 数目 , c 为 去 除 感 兴趣 基因 以 外 的 基因 数目 , a 为 待考 察 结 点 基因 去 除 与 感 
兴趣 基因 重合 的 数目 。 








三 、 富 集 分 析 常 用 工具 》》 


(一 ) GO 富 集 分 析 常 用 工具 


利用 富 集 分 析 方法 ,对 基因 注释 数据 库 做 生物 信息 学 研究 产生 了 很 多 富 集 分 析 工具 。 
这 些 工具 对 促进 基因 功能 分 析 以 及 研究 高 通 量 的 生物 学 数据 起 到 了 重要 的 作用 。 表 3-6 列 
举 一 些 常用 富 集 分 析 工 具 。 在 芯片 的 数据 分 析 中 ,研究 者 可 以 找 出 哪些 变化 基因 属于 一 个 
共同 的 CO 功能 分 支 ,并 用 统计 学 方法 检定 结果 是 否 具有 统计 学 意义 ,从 而 得 出 变化 基因 主 
要 参与 了 哪些 生物 功能 。EASE 是 比较 早 的 用 于 芯片 功能 分 析 的 网 络 平台 。 由 美国 国立 卫 
生 研 究 院 ( NIH ) 的 研究 人 员 开 发 。 研 究 者 可 以 用 多 种 不 同 的 格式 将 芯片 中 得 到 的 基因 导 
人 EASE 进 行 分 析 , EASE 会 找 出 这 一 系列 的 基因 都 存在 于 哪些 GO 分 类 中 。 其 最 主要 特点 
是 提供 了 一 些 统计 学 选项 以 判断 得 到 的 GO 分 类 是 否 符合 统计 学 标准 。EASE 能 进行 的 统计 
学 检验 主要 包括 Fisher 精确 概率 检验 ,或 是 对 Fisher 精 确 概 率 检验 进行 了 修饰 的 EASE 得 分 
( EASE score )。 
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表 3-6 常用 GO 分 析 的 网 络 平台 及 网 址 < 

数据 库 网 址 
ROSETTA http: //rosetta.lcb.uu.se/general/ 
GOToolBox http: //burgundy.cmmt.ubc.ca/GOToolBox/ 
Onto-express http: //vortex.cs.wayne.edu/projects.htm 
EASE http: //david.abec.nciferf.gov/ease/ease.jsp 
GoMiner http: //discover.nci.nih.gov/gominer/index.jsp 
GOStat http: //gostat.wehi.edu.au/ 
GFINDer http: //www.medinfopoli.polimi it/GFINDer/ 
g: Profiler http: //biit.cs.ut.ee/gprofiler/ 
GOEAST http: //omicslab.genetics.ac.cn/GOEAST/ 
GSEA http: //www.broadinstitute.org/gsea/ 
DAVID http: //david.abee.nciferf.gov/ 


由 于 进行 统计 学 检验 的 GO 分 类 的 数量 很 多 ,所 以 EASE 采 取 了 一 系列 方法 对 “多 重 检 验 ” 
的 结果 进行 校正 。 这 些 方 法 包括 弗 朗 尼 校正 法 ( Bonferroni ), 本 杰 明 假 阳性 率 法 ( Benjamini 
falsediscovery rate ) 和 靳 带 法 ( bootstraping )。 同 年 出 现 的 基于 GO 分 类 的 芯片 基因 功能 分 析 
台 还 有 Wayne state 大 学 开发 的 Onto-Express。2002 年 ,挪威 大 学 和 乌 普 萨 拉 大 学 联合 推出 
的 Rosetta 系统 将 GO 分 类 与 基因 表达 数据 相 联系 ,引入 了 “最 小 决定 法 则 ”( minimal decision 
rules ) 的 概念 。 它 的 基本 思想 是 在 对 多 张 芯片 结果 进行 聚 类 分 析 之 后 ,与 表达 模式 不 相近 的 
基因 相 比 ,相近 的 基因 更 有 可 能 参与 相同 的 生物 学 功能 的 实现 。 
(=) KEGG 富 集 分 析 常 用 软件 
通路 分 析 是 现在 经 常 被 使 用 的 芯片 数据 基因 功能 分 析 法 。 与 CO 分 类 法 (应 用 单个 基因 
的 G0 分 类 信息 ) 不 同 ,通路 分 析 法 利用 的 资源 是 许多 已 经 研究 清楚 的 基因 之 间 的 相互 作用 ， 
即 生物 学 通路 。 研 究 者 可 以 把 表达 发 生变 化 的 基因 列表 导入 通路 分 析 软 件 中 ,进而 得 到 变 
化 的 基因 都 存在 于 哪些 已 知 通路 中 ,并 通过 统计 学 方法 计算 哪些 通路 与 基因 表达 的 变化 最 
为 相关 。 现 在 已 经 有 丰富 的 数据 库 资 源 帮助 研究 人 员 了 解 及 检索 生物 学 通路 ,对 芯片 的 结 
果 进 行 分 析 ( 表 3-7 )。 
表 3-7 常用 通路 分 析 的 网 络 平台 及 网 址 
| 数据 库 | 网 址 
DAVID http: //david.abcc.nciferf.gov/ 


GenMAPP http: //www.genmapp.org/ 
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数据 库 网 址 
PathwayMiner http: //www.biorag.org/pathway.html 
KOBAS http: //kobas.cbi.pku.edu.cn 
VitaPad http: //bioinformatics.med.yale.edu/group 
KEGGanim http: //biit.cs.ut.ee/kegganim/ 
WholePathwayScope http: //www.abcc.nciferf.gov/wps/wps index.php 
VisANT 3.0 http: //visant.bu.edu/ 


最 先 出 现 的 通路 分 析 软 件 之 一 是 GenMAPP( gene microarray pathway profiler), © FJ 
以 免费 使 用 ,其 最 新 版 本 为 Cen-MAPP2。 在 这 个 软件 中 ,使 用 者 可 以 用 几 种 灵活 的 文件 格 
式 输入 自己 的 表达 谱 数 据 , GenMAPP 的 基因 数据 库 包 含 许多 从 常用 的 资源 中 得 到 的 物种 
特异 性 的 基因 注释 和 识别 符 (ID )。 这 些 ID 可 以 将 使 用 者 输入 的 基因 与 不 同 的 生物 学 通路 
的 基因 联系 起 来 。 这 些 生物 学 通路 存在 于 GenMAPP 的 MAPP 文 件 中 。MAPP 文 件 需 要 时 
常 下载 更 新 。 它 包含 有 许多 KEGG 生 物 学 通路 ,一 些 GenMAPP 自 己 的 生物 学 通路 和 许多 
GO 分 类 的 MAPP 文件 ,全 部 操作 简单 明了 。2004 年 推出 的 Pathway Miner 也 是 应 用 较为 广 
泛 的 免费 通路 分 析 网 络 平台 ,由 美国 亚利桑那 大 学 癌症 中 心 建立 维护 ,其 最 突出 的 特点 就 
是 信息 全 面 ,操作 简便 。 使 用 者 可 以 在 这 个 网 站 中 获得 单个 基因 的 序列 .功能 注释 ,以 及 
有 关 它 们 编码 的 蛋白 结构 功能 ,组 织 分 布 , OMIM 等 信息 。 对 于 通路 分 析 部 分 ,使 用 者 给 出 
基因 列表 及 它们 的 表达 变化 值 ,网 站 可 以 根据 三 大 公用 的 通路 数据 库 : KEGG、GenMAPP 
和 BioCarta, 生 成 变化 基因 参与 的 通路 ,并 用 fisher 精确 概率 检验 。PathwayMiner 自 动 把 得 
到 的 通路 分 成 两 大 类 : 代谢 通路 和 细胞 调节 通路 。 方 便 使 用 者 根据 不 同 的 研究 目的 选择 
需要 查看 的 结果 。 在 2006 年 国内 也 开发 了 用 于 通路 分 析 的 网 络 平台 , 即 KOBAS( KO-based 
annotation system ), 其 基于 KEGG 数 据 库 建立 ,由 北京 大 学 生命 科学 院 开 发 和 维护 。 其 特 
点 是 可 直接 采用 基因 或 蛋白 质 的 序列 录入 基因 ,并 对 录入 的 基因 列表 进行 KO 注释 。 对 于 
结果 的 可 靠 性 检验 提供 了 四 种 统计 方法 。 使 用 者 可 以 在 网 站 进行 注册 ,网 站 会 为 使 用 者 
保存 输入 的 数据 ,方便 日 后 直接 调用 。 最 近 推 出 的 软件 Eu.Gene 整合 了 来 自 KEGG, Gen- 
MAPP 以 及 Reactome 的 通路 数据 ,并 采用 fisher 精确 概率 检验 及 基因 集 富 集 分 析 ( GSEA ) 
来 检验 结果 是 否 具有 统计 学 意义 。 


四 、 富 集 分 析 应 用 实例 >> 


目前 有 很 多 方便 易 用 的 软件 可 以 对 基因 集 做 富 集 分 析 , 如 DAVID, GO-2D, GOEAST 等 ， 
都 提供 多 种 参数 选择 和 丰富 的 结果 分 析 。 用 户 提交 感 兴趣 的 基因 集 , 软 件 反馈 给 用 户 这 组 
基因 集 富 集 在 哪些 结 点 上 ,每 个 结 点 注释 的 基因 数目 ,统计 检验 的 P 值 ,并 提供 GO 系统 的 可 
视 化 。 
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上 面 介绍 了 多 种 富 集 分 析 工 具 , 这 里 以 目前 应 用 较为 广泛 的 DAVID 为 例 对 基因 集 进行 


具体 分 析 ( 图 3-16 )。DAVID 是 一 个 综合 工具 ,不 但 提供 基因 富 集 分 析 , 还 提供 基因 间 ID 的 转 
换 、 基 因 功 能 的 分 类 等 工具 。 





GO:0007165 GO:0007267 


GO:0007154 





GO:0009987 





图 3-16 DAVID 工 具 应 用 首页 


点 击 “Start Analysis” 后 ,第 一 步 为 提交 基因 集 ,选择 基因 标识 名 和 基因 集 类 型 ; 第 二 步 
得 到 注释 结果 摘要 (图 3-17 ), 包 括 多 种 注释 数据 ; 然后 选择 感 兴趣 的 注释 内 容 得 到 富 集 分 
析 结 果 。 

这 里 以 KEGG 通 路 的 富 集 分 析 为 例 (图 3-18 )。 提 交 之 后 的 结果 如 图 3-18, 可 以 看 到 ,对 
提交 的 基因 和 集 做 富 集 分 析 , 找 到 5 个 具有 显著 性 的 通路 。 这 里 的 “P-Value” 是 通过 Fisher 精 
确 检 验 得 到 的 p 值 ,“Benjamini” 指 的 是 本 杰 明 假 阳 性 率 校正 方法 。 
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图 3-17 DAVID 富 集 分 析 注 释 结果 摘要 
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第 五 节 
基因 功能 比较 


Section5 Gene Function Comparison 
一 、 基 因 功 能 比较 的 意义 >> 


自从 林 奈 提出 了 分 类 系统 理论 ( system of taxonomy ) 和 达尔 文 提出 了 生物 进化 论 ( theory 
of evolution ), 比较 和 分 类 的 研究 已 经 成 为 生物 学 的 中 心 文 柱 。 生 物 学 不 同 于 其 他 学 科 的 原 
因 是 ,其 知识 很 少 能 够 被 减少 到 数学 形式 。 因 此 ,生物 学 家 们 希望 能 够 利用 自然 语言 或 寻求 
其 他 的 形式 来 组 织 知 识 体系 来 记录 复杂 的 生物 学 知识 。 例 如 ,在 科学 出 版 物 中 ,在 分 类 学 计 
划 书 中 ,如 何 编 辑 、 整 理 、 展 现 生 物体 系 知识 。 最 基础 的 科学 知识 是 生物 规律 和 模式 的 比较 ， 
即 实体 间 的 比较 ,例如 ,比较 基因 ,细胞 有 机 体 、 种 群 、 物 种 等 ,从 而 发 现 它们 的 相似 特征 和 
差异 特征 。 当 出 现 新 的 实体 时 ,生物 学 家 可 以 通过 比较 他 们 来 了 解 实 体 并 根据 他 们 间 的 相 
似 程 度 进行 多 方面 知识 的 推论 。 比 较 实 体 的 方法 已 经 越 来 越 受 到 科学 家 们 的 重视 。 例 如 ， 
两 个 基因 的 序列 或 结构 可 以 直接 (通过 序列 的 对 其 比较 算法 ) 相 比 , 同 样 的 功能 方面 的 比较 
也 是 如 此 ,不 同 的 是 ,序列 和 结构 有 一 个 客观 的 代表 性 和 可 衡量 的 特征 ,而 功能 方面 却 没有 
这 样 的 特征 ,但 这 并 不 意味 着 功能 比较 必须 在 一 个 共同 的 和 客观 的 形式 表达 上 比较 ,所 以 功 
能 比较 并 不 是 不 可 能 的 。 

自动 测序 的 出 现 对 生物 学 知识 的 探索 起 到 了 深刻 的 影响 。 作 为 实验 学 的 方法 ,研究 的 
范围 已 经 从 基因 水 平 转移 到 了 基因 组 水 平 上 ,计算 分 析 已 经 被 证 明 在 处 理 越 来 越 多 的 数据 
时 是 必 不 可 少 的 方法 。 因 此 ,采取 共同 的 和 客观 的 知识 表现 方式 ,来 帮助 共享 知识 和 计算 机 
推理 已 成 为 关键 。 这 种 需求 直接 导致 了 本 体 的 发 展 ,如 注释 基因 产物 (基因 本 体 论 ), 注 释 序 
列 (序列 本 体 论 ), 注 释 的 实验 分 析 的 本 体 (基因 芯片 和 基因 表达 数据 的 本 体 论 )。 

注释 本 体 的 应 用 提供 了 一 种 比较 实体 的 手段 。 例 如 ,如 果 两 个 基因 产物 有 具 被 注释 在 同 
一 个 体系 中 ,那么 我 们 可 以 比较 它们 所 注释 术语 的 相似 性 从 而 判断 两 个 基因 产物 的 相似 性 。 
虽然 这 种 比较 含蓄 间接 (例如 ,找到 一 组 基因 产物 相互 作用 的 共同 术语 ), 但 利用 语义 相似 
性 的 方法 却 可 以 得 到 一 个 明确 的 比较 。 语 义 相似 性 测度 多 年 来 一 直 是 自然 语言 处 理 和 信息 
检索 研究 的 重要 组 成 部 分 ,是 计算 语言 学 和 人 工 智 能 应 用 中 路 待 解决 的 问题 。 

在 生物 学 中 ,基因 本 体 论 ( gene ontology ) 主要 集中 在 分 子 生 物 学 中 的 语义 相似 性 的 研 
5t ,不 仅 因 为 它 是 生命 科学 界 最 广泛 采用 的 本 体 , 也 因为 它 在 比较 基因 产物 的 功能 上 的 广泛 
应 用 。 基 于 GO 注释 体系 的 语义 相似 性 方法 的 应 用 为 基因 产物 的 功能 比较 提供 了 很 好 的 出 
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口 。GO 应 用 的 一 个 重要 方面 就 是 对 G0 术语 的 语义 相似 性 进行 度量 。 通 过 定义 一 个 语义 相 
似 性 测度 ,来 度量 两 个 本 体 或 两 个 术语 的 相似 性 所 返回 的 数值 ,反映 了 它们 之 间 的 亲密 程 
度 , 这 将 大 大 提高 基因 研究 工作 的 效率 ,节省 更 多 的 人 力 物力 。 

目前 已 经 开发 了 很 多 基于 GO 等 结构 化 数据 库 的 基因 功能 相似 性 算法 。 这 些 算法 对 于 
构建 功能 网 络 以 及 预测 基因 功能 有 重要 意义 ,成 为 生物 医学 研究 与 应 用 中 的 重要 工具 。 对 
基因 功能 的 比较 可 以 了 解 未 知 基因 的 功能 ,认识 基因 与 疾病 的 关系 ,掌握 基因 的 产物 及 其 在 
生命 活动 中 的 作用 等 。 





二 .语义 相似 性 原理 与 算法 >> 


下 面 介绍 如 何 利用 信息 理论 体系 中 的 相似 性 概念 ,来 比较 基因 间 的 功能 相似 性 。 基 于 
基因 本 体 论 ,从 特定 蛋白 质 的 功能 信息 出 发 ,查找 与 其 功能 相似 或 者 相关 的 蛋白 质 , 或 者 对 
两 个 蛋白 质 之 间 的 关联 程度 进行 比较 \ 量 化 ,从 而 推测 它们 在 生命 活动 中 扮演 的 角色 关系 。 
通常 认为 ,如 果 两 个 基因 产物 的 功能 相似 ,那么 它们 在 GO 中 注解 的 功能 术语 就 相近 ,所 以 我 
们 只 要 能 求 出 G0 中 术语 对 的 相似 度 ,就 可 以 近似 估计 两 基因 产物 功能 的 相似 程度 。 通 过 研 
究 , 如 果 能 找到 新 的 计算 语义 相似 度 的 方法 ,使 GO 术语 间 的 语义 相似 度 更 加 精确 ,那么 就 能 
更 加 精确 地 查找 功能 相似 或 者 相关 的 蛋白 质 , 从 而 更 加 精确 地 估计 两 基因 产物 功能 的 相似 
程度 。 

人 们 广泛 了 解 的 是 Resnik 在 1995 年 提出 的 对 分 类 系统 中 每 个 类 定义 的 语义 相似 性 算 
法 ,计算 两 个 类 的 语义 相似 性 ,后 有 多 位 科学 家 经 过 改进 等 提供 了 多 种 类 相似 性 的 计算 测 
度 。 在 2002 年 Lord 第 一 次 提出 把 语义 相似 性 理论 应 用 到 GO 分 类 系统 中 ,计算 两 个 术语 之 间 
的 相似 性 ,从 而 可 以 利用 不 同 的 方法 计算 基因 间 的 功能 相似 性 ,最 后 可 以 根据 功能 相似 性 得 
分 预测 未 知 基 因 的 功能 。 

在 GO 这 种 层级 结构 的 词汇 分 类 系统 中 ,从 父 术 语 到 子 术语 ,含义 是 逐 层 深入 的 关系 。 
越 往 下 层 , 概 念 越 具 体 。 换 言 之 , 越 往 下 层 ,术语 的 信息 含量 越 大 , 根 术语 的 信息 量 近似 为 0。 
在 分 类 系统 中 ,利用 GO 结构 信息 和 基因 注释 信息 ,首先 设 一 个 函数 ,计算 得 到 每 个 术语 的 信 
息 合 量 值 : P(c)= fet) , freq( c) 表示 术语 及 它 的 子 术语 上 注释 的 所 有 基因 数 , p Ce ) 是 
术语 c 的 概率 ,并 且 随 着 术语 c 在 层级 结构 中 的 升级 ,概率 p 是 单调 递增 的 , top 术 语 概 率 是 1。 
则 术语 c 的 信息 含量 值 为 : 1C=-log( p(c ))。 由 公式 可 知 ,术语 的 概率 越 大 ,而 它 的 信息 含量 
越 小 。 即 如 果 cl 是 c2 的 下 属 , 则 p( c1) 去 p(e2 )。 所 以 说 根 术 语 的 信息 含量 最 小 , 越 往 下 层 ， 
信息 含量 越 大 , 即 信 息 含量 随 着 层级 结构 的 深度 增加 更 增 大 。 这 样本 体 体系 中 的 每 一 个 术 
语 都 被 量化 ,都 具有 一 个 信息 含量 值 , 代 表 了 这 个 术语 所 含有 的 信息 量 。 所 有 方法 术语 间 的 
比较 和 基因 间 的 比较 都 是 依靠 这 个 信息 含量 值 来 进行 进一步 计算 的 。 


三 、 生 物 学 术语 相似 性 >> 


得 到 每 个 术语 的 信息 含量 值 后 ,计算 任意 两 个 术语 的 相似 性 方法 有 多 种 , Resnik 提 出 的 
语义 相似 性 概念 是 定义 为 两 个 术语 的 公共 祖先 中 最 近 距 离 的 祖先 术语 的 IC 值 即 为 它们 的 相 
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似 性 值 , 即 


sim(c,.c,) = max ,| -logp(c)] (3-3) 

为 了 说 明 GO 结 构 中 结 点 关系 ,如 何 计算 两 个 结 点 间 共 同和 祖先 的 最 近 祖 先 , 如 图 3-19 中 
解释 GO: 0007154 即 为 GO: 0007166 和 GO: 0007267 的 最 近 共 同 祖 先 。 可 以 看 到 GO: 0007166, 
GO: 0007267 的 共同 最 近 祖 先 即 为 G0: 0007154, 也 就 认为 它 的 IC 值 为 两 个 结 点 的 相似 性 值 。 
在 Resnik 的 方法 中 , 若 不 同 结 点 对 的 祖先 相同 ,那么 任何 子 层 的 结 点 对 的 相似 性 就 没有 区 
别 , 不 能 加 以 比较 了 ,显然 这 是 不 合理 的 。Lin 的 方法 与 Resnik 的 信息 量 的 方法 有 些 相似 ,在 
理论 上 是 很 有 根据 的 。 这 种 方法 的 改进 之 处 在 于 : 其 一 ,两 个 要 比较 概念 的 信息 量 之 和 的 标 
准 化 ; 其 二 ,假定 要 比较 的 两 个 概念 是 独立 的 。 该 方法 把 两 基因 产物 的 相似 性 定义 为 两 术语 
共同 的 最 近 祖 先 术 语 的 信息 量 与 两 术语 平均 信息 量 的 比 。 





Home Start Analysis | Shortcut to DAVID Tools | Technical Center Downloads & APIs | Term of Service Why DAVID? | About Us 


uncine the release of DAVID 6 7 Beta Please see the announcement in the DAVID forum for details. DAVID 2008 will be completely retired on 3 17 2010 








Annotation Summary Results 





Current Gene List- Uploaded List 1 34 DAVID IDs 

Current Background: HOMO SAPIENS Check Defaults F] Clear All 
Bj Main Accessions (0 selected) 

图 Other Accessions (0 selected) 

B Gene Ontology (3 selected) 

Bi Protein Domains (3 selected) 
Bi Pathways (3 selected) 
Bl General Annotations (0 selected) 


Combined View for Selected Annotation 
~> 


图 3-19 GO 结构 示意 图 
GO: 0007154 8j 3 GO: 0007166 和 G0: 0007267 的 最 近 共 同 祖先 





AIC. ese) 

IC(c,)+IC(e, ) Land) 
Jiang 和 Conrath 的 方法 继承 了 图 表 中 基于 边 的 方法 的 特点 ,并且 结合 了 基于 术语 的 信息 
量 的 方法 来 计算 术语 对 之 间 的 相似 度 。 但 是 也 考虑 了 连接 概念 之 间 边 的 数目 ,还 有 局 部 密 
度 , 以 及 概念 之 间 的 连接 类 型 等 相关 因素 。 这 种 方法 尤其 注意 了 连接 父 术 语 与 子 术 语 之 间 
的 边 的 连接 强度 。 在 上 一 种 方法 中 我 们 已 经 讨论 了 子 术语 的 实例 概率 与 其 父 术 语 之 间 的 关 

系 , 所 以 根据 信息 论 我 们 整理 得 到 ; 
sim(c,,c,) = 2IC,,, (a.6;)- [1C (a )+IC(c, )] (3-5) 


以 上 几 种 方法 在 生物 学 研究 中 是 比较 常用 的 ,也 有 一 些 其 他 的 方法 不 断 地 被 提出 来 。 


sim(c,,c,)= 
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比如 基于 语义 路 径 履 盖 的 Combine 算 法 ,该 算法 首先 计算 出 每 个 术语 的 信息 量 , 然 后 分 别 计 
算 两 个 术语 的 语义 路 径 的 交集 之 间 术 语 信息 量 之 和 以 及 这 两 个 术语 语义 路 径 的 并 集 之 间 术 
语 信息 量 之 和 ,将 这 两 者 之 间 的 比率 作为 相似 性 度量 值 ,文中 不 做 详细 介绍 。 


四 、 基 因 ( 基因 产物 ) 功能 比较 >> 


在 GO 系统 中 ,可 以 计算 得 到 任意 两 个 术语 的 相似 性 值 , 则 可 根据 基因 注释 在 哪些 术语 
上 而 计算 两 个 基因 之 间 的 功能 相似 性 。 最 简单 的 方法 是 取 两 个 基因 所 注释 的 术语 对 的 最 大 
值 或 平均 值 ,来 作为 两 个 基因 的 功能 相似 性 。 

对 于 给 定 的 两 个 基因 ,它们 的 GO 注释 对 应 于 术语 集合 c 706.6; ..., Cy fll 6; = C1,C,…， 
Cu , 则 公式 表示 为 : 


as (8:8) z Bux (sim(o.e, )) a 
sim(g,,g,)= avg (sim(c,,¢,)) (3-7) 


l<i<M l<j<N 

最 优 分 配 法 是 目前 被 广泛 应 用 的 方法 ,如 图 3-20 所 示 ,首先 取出 一 个 基因 中 的 结 点 与 另 
一 基因 中 的 所 有 结 点 的 语义 相似 性 最 大 值 , 即 基因 1 中 结 点 1 与 基因 2 中 的 所 有 结 点 的 语义 相 
似 性 最 大 值 为 0.75 ,基因 2 中 的 结 点 2 与 基因 1 中 所 有 结 点 的 语义 相似 性 最 大 值 为 0.91 ; 分 别 
计算 出 每 个 结 点 最 大 值 ,最 后 求 和 取 平 均值 , 即 为 两 个 基因 的 最 优 功能 相似 性 值 。 公 式 如 下 : 





DAVID Bioinformatics Resources 2008 
ational Institute of Allergy and Infectious Diseases (NIAID), NI 








Announcing the release of DAVID 0.7 Please see the announcement in the DAVID forum for details DAVID 2008 will be completely 
Functional Annotation Chart 
Hel Manual 
Current Gene List: Uploaded List 1 
Current Background: HOMO SAPIENS 
34 DAVID IDs 
B Options 
Rerun Using Options Vi Download File 
R 4 Beniamini 
nm KEGG PATHWAY Neurodegenerative Diseases RI  —- 7 0.6 4.86-9 9.7E-7 
口 KEGG PATHWAY Bisphenol A degradation RI - 3 8.8 1.4E-3 1.362 
n KEGG. PATHWAY a i Hoa 3 8 3.7E-3 E 
Bn KEGG PATHWAY Alzheimer's disease RI - 3 8.8 S.4E-3 248-1 
E KEGG, PATHWAY Amy i RI - 2 5 E-2 SSE 





24 gene(s) _| from your list are not in the output 


图 3-20 最 优 方法 计算 两 个 基因 功能 相似 性 示意 图 


N 
rowScore — > max S. (3-8) 
1 


l<j<M y 


M 
columnScore — 5 > max S; (3-9) 
I 


l<j<N 
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sim (s1, , 2) E rowScore + mme (8-160 


五 .基因 集合 功能 比较 >> 


高 通 量 实验 在 生物 学 领域 的 应 用 ,得 到 了 大 量 的 基因 和 集合 数据 ,对 这 些 基因 集合 数据 的 
研究 分 析 越 来 越 被 科学 家 们 关注 。 这 些 基因 集合 常常 被 用 来 作为 分 子 标 记 物 去 识别 复杂 疾 
病 的 遗传 机 制 。 它 们 通常 是 在 特定 的 生物 学 条 件 下 得 到 的 ,而 对 于 那些 具有 相关 但 又 不 完 
全 相同 的 条 件 下 得 到 的 不 同 的 基因 集 ,研究 人 员 和 希望 寻找 它们 之 间 的 关联 ,例如 对 于 同样 本 
在 不 同 实验 平台 下 检测 到 的 差异 表达 基因 的 可 重复 性 等 。 仅 仅 利用 基因 集 间 的 重复 度 作为 
测度 来 衡量 它们 之 间 的 相似 性 已 不 能 满足 科学 家 的 要 求 , 科 学 家 们 不 断 发 展 和 改良 生物 信 
息 学 方法 去 人 研究 这 一 问题 。 

语义 相似 性 的 比较 方法 为 这 一 方面 的 研究 提供 了 可 能 。 对 基因 集合 找到 其 功能 注释 结 
点 ,从 而 利用 语义 相似 性 的 理论 对 基因 集合 间 进 行 功能 比较 ,量化 得 分 ,从 而 实现 了 从 生物 
学 功能 水 平 去 比较 基因 集 的 功能 相似 性 。 无 论 是 利用 基因 注释 的 方法 还 是 基因 集 方法 都 可 
以 找到 这 个 基因 集 的 功能 术语 集合 ,这 已 经 在 前 面 的 章节 进行 了 详细 介绍 。 然 后 对 于 两 个 
基因 集合 得 到 的 功能 术语 基因 进行 语义 相似 度量 , 则 是 与 基因 间 的 相似 性 的 计算 方法 相同 ， 
读者 可 以 根据 自己 数据 的 特点 选择 不 同 的 测度 。 

目前 对 于 基因 集合 间 的 功能 比较 和 量化 ,基于 语义 相似 性 方法 研究 者 们 已 经 开发 了 很 
多 的 方法 可 供 利用 ,这 里 我 们 介绍 两 个 常用 的 方法 ,一 个 利用 单个 基因 间 的 功能 相似 性 的 整 
合 分 析 , 男 一 个 是 利用 基因 集 的 全 局 功能 的 整体 分 析 ( 图 3-21 )。 

第 一 个 方法 的 思想 是 ,对 于 两 个 基因 集中 寻找 重复 基因 计数 ,然而 大 量 的 非 重 复 基 因 无 
法 计算 ,所 以 寻找 非 重复 基因 是 否 在 功能 上 相关 。 利 用 GO 和 蛋白质 互 作 网 上 的 关联 性 对 基 
因 对 进行 打分 ,从 而 找 出 两 个 基因 集合 中 相关 联 基因 对 的 比例 ,作为 判断 两 个 基因 集合 功能 
是 否 相关 的 标准 。 

第 二 个 方法 是 利用 基因 集 的 整体 功能 进行 比较 两 个 基因 集 的 功能 相似 程度 。 这 个 方法 
基于 GO 对 于 每 个 基因 和 集 进行 富 集 分 析 得 到 显著 性 术语 ,表示 这 个 基因 和 集 的 全 局 功能 ,再 对 
这 些 术语 按 与 基因 集 的 相关 程度 加 权 。 对 两 个 基因 集合 得 到 的 两 个 带 有 权重 的 术语 集合 做 
语义 相似 性 计算 ,利用 最 佳 匹 配 原 则 ,可 以 算出 它们 的 相似 性 得 分 。 最 后 按 相同 数目 的 基因 
进行 随机 扰动 ,统计 基因 和 集 的 相似 性 得 分 是 否 显 著 , 从 而 比较 两 个 基因 集 是 否 功能 相似 。 


六 、 常 用 工具 》》 


目前 已 经 有 一 些 比 较 基 因 间 关联 程度 的 算法 和 工具 ,利用 语义 相似 性 原理 计算 基因 间 
功能 相似 性 的 工具 已 经 有 很 多 。 我 们 以 GOSim 举 例 说 明 , CGOSim 是 一 个 R 包 的 工具 。GOSim 
不 但 可 以 提供 两 个 结 点 的 语义 详细 性 和 两 个 基因 间 的 功能 相似 性 ,还 进行 了 进一步 的 功能 
分 析 , 即 基于 基因 在 GO 上 的 功能 相似 性 对 基因 进行 聚 类 ,并 对 聚 类 结果 提供 可 视 化 ,这 为 研 
究 者 提供 了 大 大 的 方便 。 比 较 著 名 的 基于 语义 相似 性 的 方法 来 做 基因 比较 分 析 的 工具 还 有 
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Gene Set 1 Gene Set 2 












Step 1 
ecu significant related Sim= .MICACCILC21). 
functional categories using ICC CH ) +1C( C21) 
enrichment analysis 0.079 
C110,738 02] 0433 
cizo 0 i a z 0.079 4 


0.770 
C13 0.787 





Step 2 w. 00 d 

Calculating semantic TUM D e 
dad A @ he 

similarity score between dio , 234 (240.689 


two significant categories 
on DAG context 





Gim 0.107 ý MES! 


Enrichment Significance Value(ESV) 
iSim-0.07*0.787*0.977 








它 
Ee 
ES 
Step 3 oz 
Calculating the functional E 5 
similarity score between two g 4 
gene sets(GSFS score) 9*5 
ot 
S o 
S 8 
E o BEEMEMM . || .. X. ^») E 0X4 mp 
GSFS score=BMA(iSimMatrix)=0.737 
Step 4 
Statistical evaluation of the 
significance of the GSFS score * au 
using Monte Carlo methods 0.737 «0.01 3.53 
图 3-21 利用 基因 集 全 局 功能 比较 基因 集 功能 
很 多 ,这 里 列举 了 其 中 的 一 部 分 ( 表 3-8 ): 
表 3-8 常用 基于 GO 分 析 的 语义 相似 性 方法 的 平台 及 网 址 
ee de M à 
GOToolBox http: //genome.crg.es/GOToolBox/ 
FunSimMat http: //www.funsimmat.de/ 
FuSSiMeG http: //xldb.fc.ul.pt/rebil/ssm/ 


G-SESAME http: //bioinformatics.clemson.edu/G-SESAME/ 
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续 表 
数据 库 = 网 址 
GSFS http: //bioinfo.hrbmu.edu.cn/GSFS 
esbl.GO R 包 
GOSim R 包 
SemSim R 包 
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CHAPTER 4 


集 白 质 结构 分 析 


PROTEIN STRUCTURE ANALYSIS 





蛋白 质 的 各 种 各 样 的 功能 是 以 它们 对 与 之 相互 作用 分 子 的 高 度 特 异性 为 基础 的 ， 
这 就 要 求 蛋白 质 具 有 相当 的 刚性 空间 结构 。 这 些 结构 的 微小 改变 常常 会 使 蛋白 质 表 
失 活 性 或 发 生 剧 烈 变 化 ,从 而 使 其 功能 发 生 改 变 甚至 影响 生理 功能 导致 疾病 的 产生 。 
有 关 蛋 白质 三 维 结构 的 知识 是 了 解 蛋 白质 如 何 行使 功能 所 必需 的 。 生 物 系统 的 高 分 
辨 结构 信息 将 允许 我 们 对 生命 系统 的 功能 、 对 系统 修饰 或 扰动 的 后 果 进 行 精确 的 解释 
和 推理 。 这 一 结构 信息 的 展现 与 日 益 增 长 的 基因 组 、 蛋 白 组 、 代 谢 组 信息 相 联系 ,为 分 
析 生 物 医学 问题 提供 了 强大 的 研究 背景 。 








第 一 证 
蛋白 质 高 级 结构 


Section 1 Advanced Structures of Protein 


一 、 蛋 白质 的 高 级 结构 特征 >> 


分 子 生物 学 的 中 心 法 则 确定 了 DNA 与 蛋白 质 氨 基 酸 序列 间 的 关系 , 称 为 第 一 套 遗 传 密 
码 子 ; 确定 蛋白 质 氨基 酸 序 列 与 三 维 结构 间 的 关系 ,被 称 之 为 “第 二 套 遗 传 密码 子 ”"。 蛋 日 
质 的 一 级 结构 ( primary structure ) 就 是 蛋白 质 多 肽 链 中 氨基 酸 残 基 的 排列 顺序 ( sequence ), 
靠 共 价 键 维持 多 肽 链 的 连接 ,而 不 涉及 其 空间 排列 ,是 蛋白 质 最 基本 的 结构 。 它 是 由 基因 上 
遗传 密码 的 排列 顺序 所 决定 的 。 各 种 氨基 酸 按 遗传 密码 的 顺序 ,通过 肽 键 连接 起 来 ,成 为 多 
肽 链 , 故 肽 键 是 蛋白 质 结构 中 的 主键 。 和 蛋白 质 的 一 级 结构 决定 了 和 蛋白 质 的 二 级 三 级 等 高 级 
结构 。 成 百 亿 的 天 然 蛋 白质 各 有 其 特殊 的 生物 学 活性 ,决定 每 一 种 蛋白 质 的 生物 学 活性 的 
结构 特点 ,首先 在 于 其 肽 链 的 氨基 酸 序列 。 由 于 组 成 蛋白 质 的 20 种 氨基 酸 各 具 特 殊 的 侧 链 ， 
侧 链 基 团 的 理化 性 质 和 空间 排 布 各 不 相同 , 当 它 们 按照 不 同 的 序列 关系 组 合 时 ,就 可 形成 多 
种 多 样 的 空间 结构 和 不 同 生物 学 活性 的 蛋白 质 分 子 。 


(一 ) 蛋白 质 的 二 级 结构 


蛋白质 二 级 结构 ( secondary structure ) 是 指 多 肽 链 借助 于 氨 键 沿 一 维 方 向 排列 成 具有 周 
期 性 的 结构 的 构象 ,是 多 肽 链 局 部 的 空间 结构 (构象 ), 主 要 有 a -螺旋 、B —Dre. p -转角 及 
无 规 卷 曲 等 几 种 形式 ,它们 是 构成 蛋白 质 高 级 结构 的 基本 要 素 。 

1. a -螺旋 ( a -helix) a -螺旋 是 蛋白 质 中 最 常见 最 典型 含量 最 丰富 的 二 级 结构 元 
件 。 在 o -螺旋 中 ,与 a 碳 原子 相连 的 两 个 二 面 角 都 是 恒定 的 ,并 且 每 圈 螺 旋 包含 3.6 个 氨基 
酸 残 基 , 残 基 侧 链 伸 向 外 侧 ,同一 肽 链 上 的 每 个 残 基 的 酰胺 所 和 位 于 它 后 面 的 第 4 个 残 基 上 
的 普 基 氧 彼此 之 间 形 成 氢 键 。 这 种 氢 键 大 致 与 螺旋 轴 平 行 。 一 条 多 肽 链 呈 o -螺旋 构象 的 
推动 力 就 是 所 有 肽 键 上 的 酰胺 所 和 痰 基 氧 之 间 形 成 的 链 内 氢 键 。 在 水 环境 中 , 肽 键 上 的 栈 
Ae USE ABA ETE BUN BBC a -螺旋 内 ) 的 氢 键 ,也 能 与 水 分 子 形成 氢 键 。 典 型 的 a -螺旋 
是 由 18 个 氨基 酸 残 基 形 成 的 5 圈 螺 旋 ,长 约 274。a -螺旋 太 长 趋 于 形成 纤维 ,不 易 形 成 球形 。 
在 大 多 数 球状 蛋白 中 , a -螺旋 的 平均 长 度 约 174 ,相当 于 11 个 氨基 酸 残 基 。 

2. B -折合 ( B-sheet) B -折合 也 是 一 种 重复 性 的 结构 ,可 以 看 成 是 一 种 特殊 的 螺旋 ， 
是 拉 伸 的 a -螺旋 ,大 多 数 球状 蛋白 质 中 ,每 股 B -HTE tE B HEC B -strand ) 的 平均 长 度 约 
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20 4 ,相当 于 6.5 个 氨基 酸 残 基 , 通 常 含 有 3~10 个 氨基 酸 残 基 。B -IAE h IR] — IK BRB UE HK 
键 间 很 难 形成 氧 键 , 只 有 通过 较 远 距离 的 肽 键 之 间 形 成 氢 键 ,将 多 股 B_- DEAL 
组 B- 折 合 , 一 般 称 为 B 片 层 结 构 。 通 常 分 为 平行 式 和 反 平 行 式 两 种 类 型 ,它们 是 通过 肽 链 
间或 肽 段 间 的 氧 键 维系 。 构 成 B 片 层 的 几 股 B 折 县 链 如 果 走 向 是 相同 的 , 则 为 平行 的 B 片 
层 ; 如 果 它 们 的 走向 是 相反 的 , 则 是 反 平 行 的 B H FIER FITE EHE. 
一 般 是 大 结构 , 反 平 行 折 鳃 片 可 以 少 到 仅 由 两 个 B 链 组 成 , 反 平 行 的 B 折 苔 比 平行 的 B 折 秋 
更 为 稳定 。 . 

3. B -转角 ( B-tum) B -转角 是 连接 相同 主 链 上 a- 螺旋、B - 折 和 用 等 二 级 结构 的 关 
键 结构 。 在 B -转角 中 第 一 个 残 基 的 C=0 与 第 四 个 残 基 的 N-H 氢 键 键 合 形成 一 个 紧密 的 环 ， 
使 B -转角 成 为 比较 稳定 的 结构 ,多 处 在 蛋白 质 分 子 的 表面 ,在 这 里 改变 多 肽 链 方 向 的 阻力 
比较 小 。B -转角 可 看 成 是 由 几 个 氨基 酸 残 基 构 成 的 最 小 的 反 平 行 的 B 片 层 , 即 截 短 的 发 夹 
结构 。B -转角 的 特定 构象 在 一 定 程度 上 取决 于 它 的 组 成 氨基 酸 , 某 些 氨基 酸 如 且 氨 酸 和 甘 
氮 酸 经 常 存在 其 中 ,由 于 甘氨酸 缺少 侧 链 (只 有 一 个 了 ), 在 B -转角 中 能 很 好 地 调整 其 他 残 
基 的 空间 阻碍 ,因此 是 立体 化 学 上 最 合适 的 氨基 酸 ; 而 腿 氨 酸 具 有 换 装 结构 和 固定 的 角 , 因 
此 在 一 定 程 度 上 迫使 B -转角 形成 ,促使 多 肽 自身 回 折 且 这 些 回 折 有 助 于 反 平 行 B 折 县 片 的 
形成 。 大 多 数 B -转角 存在 于 分 子 的 表面 , 极 少 出 现在 分 子 的 内 部 。B 转角 及 其 附近 比 整 个 
分 子 有 更 大 的 亲 水 性 。 

p -是 起 是 一 种 小 片 的 非 重 复 结构 ,能 单独 存在 ,但 大 多 数 经 常 作为 反 平 行 B -iE P 
的 一 种 不 规则 情况 而 存在 。B noie nA NE B -折合 链 中 额外 插入 的 一 个 残 基 , 它 使 得 在 
两 个 正常 氧 键 之 间 在 凸 起 折 炙 链 上 是 两 个 残 基 , 而 男 一 侧 的 正常 链 上 是 一 个 残 基 。 

4. OMJECO loop) QQ 环形 具有 准 有 序 结构 ,从 形式 上 可 以 看 成 是 B -转角 的 延伸 ,这 
类 肽 段 的 外 形 和 希腊 字母 Q 相 似 , 故 被 称 为 Q 环 形 。Q 环 形 的 可 变性 比 转 角 更 大 。 在 直接 
和 和 集 白 质 生物 活性 有 关 、 有 更 大 活动 性 的 位 点 绝 大 多 数 是 由 转角 和 环形 构成 的 。 

5. 无 规 卷曲 ( random coil) 无 规则 卷曲 或 称 卷曲 ( coil ), 泛 指 那些 不 能 被 归 和 人 明确 的 二 
级 结构 如 折 县 片 或 螺旋 的 多 肽 区 段 ,是 规律 性 较 低 而 难以 描述 的 特殊 类 型 二 级 结构 。 其 所 
涉及 的 残 基数 量 差异 大 ,整体 外 形变 化 大 ,可 采取 多 种 折 炙 形式 ,是 不同 构象 间 的 能 量 差 异 
小 而 容易 相互 转变 , 故 其 结构 的 规律 性 很 低 ,但 每 一 种 蛋白 质 肽 链 中 存在 的 这 一 类 型 “无 规 ” 
肽 段 的 空间 构象 是 大 致 相同 的 。 它 们 也 像 其 他 二 级 结构 那样 是 明确 而 稳定 的 结构 ,否则 和 蛋 
白质 就 不 可 能 形成 三 维 空间 上 每 维 都 具 周 期 性 结构 的 晶体 。 它 们 受 侧 链 相 互 作用 的 影响 很 
大 ,经 常 构成 酶 活性 部 位 和 其 他 蛋白 质 特异 的 功能 部 位 。 无 规 卷 曲 在 球状 蛋白 质 表面 出 现 
较 多 ,也 是 连接 其 他 规则 二 级 结构 的 结构 模式 。 


(二 ) 超 二 级 结构 


超 二 级 结构 ( supersecondary structure ) 指 位 于 同一 主 链 的 多 个 二 级 结构 组 装 形成 的 特定 
组 装 体 ,可 直接 作为 三 级 结构 的 或 结构 域 的 组 成 单元 ,是 从 蛋白 质 二 级 结构 形成 三 级 结构 的 
一 个 过 渡 结 构 形 式 , 也 称 为 立体 结构 形成 的 模 体 。a 螺旋 、B 折 释 和 B 转角 的 二 级 结构 自身 
可 形成 超 二 级 结构 ,不 同 的 二 级 结构 组 合 可 以 形成 多 种 类 型 的 超 二 级 结构 。 

超 二 级 结构 主要 有 如 下 类 型 : OB -转角 或 Q 环 等 连接 连续 四 个 a -螺旋 形成 的 四 a - 
螺旋 捆 ; @) 中 部 固定 位 置 含 有 亮 氨 酸 及 其 他 玻 水 侧 链 氨 基 酸 残 基 、 在 螺旋 两 端 含有 强 亲 水 侧 
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链 氨 基 酸 的 a -螺旋 组 成 的 亮 氨 酸 拉链 ( leucine zipper ); @) 一 条 主 链 中 相 邻 七 个 两 亲 o. - 螺 
旋 通 过 过 渡 结 构 形 成 的 七 次 穿 膜 螺旋 组 ; 由 连续 主 链 中 两 段 w -螺旋 连接 三 段 B TEE 
成 的 Rossmann 折 和 县; © B -转角 连接 a -螺旋 构成 的 a -螺旋 - B -转角 - o -螺旋 ; OO MEE 
a -螺旋 - a -螺旋 -Q 环 -a -螺旋 等 ; CO B - 折 释 都 为 超 二 级 结构 。 超 二 级 结构 通常 并 不 对 
应 生物 化 学 功能 ,但 其 结构 模式 是 解析 和 蛋白质 组 装机 制 的 关键 信息 之 一 。 

结构 域 ( domain ) 也 是 蛋白 质 构象 中 二 级 结构 与 三 级 结构 之 间 的 一 个 层次 , 它 是 在 较 大 
的 蛋白 质 分 子 中 ,由 于 多 肽 链 上 相 邻 的 超 二 级 结构 紧密 联系 ,形成 在 空间 上 可 以 与 蛋白 质 亚 
基 结 构 明 显 区 别 的 结构 形态 。 一 般 每 个 结构 域 由 约 100~200 个 氨基 酸 残 基 组 成 ,各 有 独特 的 
空间 构象 ,可 承担 特定 的 生物 化 学 功能 。 


(=) 三 级 结构 (tertiary structure) 


蛋白 质 的 一 个 引 人 注 目的 特征 是 它们 都 有 确定 的 三 维 结构 。 一 个 伸展 的 或 随机 排 布 的 
多 肽 链 没有 任何 生物 活性 ,多 肽 链 必须 按照 一 定 的 规律 折 故 成 三 维 结构 , 才 具 有 生物 活性 。 
蛋白 质 三 级 结构 即 蛋白 质 分 子 中 所 有 共 价 相连 原子 的 空间 相对 位 置 ,由 多 肽 链 在 二 级 结构 
的 基础 上 进一步 盘 绕 和 折 芍 形成 ; 蛋白 质 如 有 特殊 的 必需 辅 基 , 其 三 级 结构 也 包括 来 自 这 类 
辅 基 的 原子 的 空间 位 置 。 稳 定 蛋 白质 三 级 结构 主要 靠 氨基 酸 侧 链 之 间 的 疏水 相互 作用 、 氧 
键 、 二 硫 键 . 范 德 华 力 和 静电 作用 等 。 不 同类 型 的 蛋白 质 局 部 结构 分 解 后 可 具有 很 高 的 相似 
性 ,但 在 三 级 结构 层面 不 同 蛋 白质 所 体现 的 各 自 整 体 结构 特征 通常 不 同 。 

蛋白 质 按 其 “环境 条 件 ” 的 大 体 结构 分 类 

1. 纤维 状 蛋 白质 ” 整 条 肽 链 几乎 是 单一 的 二 级 结构 组 成 的 巨大 的 、 通 常 是 缺 水 性 的 聚 
集体 ; 其 结构 通常 是 高 度 氢 键 键 合 和 高 度 规则 的 , 且 主 要 由 不 同 肽 链 间 的 相互 作用 维系 。 在 
生物 体内 起 到 结构 和 支撑 的 作用 。 

2. 膜 蛋白 质 ”主要 是 指 多 次 穿 膜 的 膜 蛋白 ,存在 于 缺 水 性 的 膜 环 境 中 ,其 膜 内 部 分 是 高 
度 规则 的 ,也 是 高 度 氢 键 键 合 的 ,但 大 小 上 受 限 于 膜 的 厚度 。 在 膜 内 部 分 倾向 于 形成 两 亲 的 
a -螺旋 或 B Trew, 且 形 成 玻 水 的 在 外 侧 , 亲 水 的 在 内 侧 中 间 空 心 的 圆 桶 状 结构 ; 内 侧 可 
作为 亲 水 或 极 性 物质 的 通道 ,连接 这 些 膜 内 二 级 结构 单元 的 肽 段 分 布 在 膜 的 两 侧 ,还 承担 其 
相应 的 生物 功能 。 

3. 水 溶性 球状 蛋白 质 ” 绝 大 多 数 的 蛋白 质 的 肽 链 折 和 县 成 为 几乎 球状 的 结构 ,存在 于 水 
中 , 较 不 规则 (特别 是 小 的 球状 蛋白 质 )。 蛋 白质 的 结构 由 其 链 内 的 相互 作用 维系 ,其 中 起 重 
要 作用 的 是 在 序列 中 远离 但 在 空间 上 相 邻 的 烃基 ( 玻 水 ) 基 团 间 的 相互 作用 ,有 时 还 有 肽 链 
与 辅 因子 的 相互 作用 。 一 旦 具有 三 级 结构 后 ,蛋白质 内 部 变 得 更 为 紧密 ,其 内 部 是 大 量 的 极 
性 基 团 ,而 表面 是 以 侧 链 的 非 极 性 残 基 为 主导 地 位 , 极 性 和 非 极 性 残 基 这 样 的 分 布 ,使 得 肽 
链 中 大 部 分 键 的 张 角 适合 于 稳定 构象 的 形成 。 在 蛋白 质 的 内 部 存在 有 极 少量 的 亲 水 的 残 基 ， 
而 分 子 表面 是 一 些 玻 水 的 残 基 , 这 些 局 部 的 构象 具有 相对 偏 高 的 能 量 , 相 对 地 处 于 较 不 稳定 
的 状态 ,并 以 此 行使 蛋白 质 的 功能 。 另 外 ,蛋白 质 内 部 的 部 分 水 分 子 也 和 一 些 极 性 的 基 团 或 
负电 性 的 原子 形成 氢 键 ,以 此 参与 蛋白 质 功 能 的 行使 。 


(四 ) 四 级 结构 
四 级 结构 是 独立 三 级 结构 形成 的 复合 物 ,其 中 每 个 独立 三 级 结构 为 亚 基 ( subunit ), 也 称 
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为 单 体 ( monomer ), 一些 具有 三 级 结构 的 肽 链 ,通过 其 上 面相 互 作用 的 基 团 ,以 特定 的 方式 
组 装 成 为 一 种 更 高 层次 的 结构 ,这 个 结构 层次 就 是 蛋白 质 的 四 级 结构 。 其 分 类 原则 主要 有 : 
中 按照 亚 基 的 数目 分 类 : 可 分 为 寒 聚 和 多 聚 两 大 类 。 在 寡 聚 体 中 , 亚 基 多 数 紧密 地 堆积 而 呈 
球形 。 多 聚 体 可 以 成 为 线性 结构 。@) 按 照 亚 基 种 类 分 类 : 可 将 蛋白 质 分 为 由 相同 亚 基 和 不 
同 亚 基 构成 的 两 大 类 型 。 目 前 已 知 的 蛋白 质 , 绝 大 多 数 是 由 相同 亚 基 构 成 的 同 源 聚 集体 ; 由 
不 同 亚 基 组 成 的 异 源 聚 集体 ,也 主要 是 2 种 或 3 种 亚 基 组 成 的 。@@ 按 照 四 级 结构 的 外 形 分 类 : 
有 的 蛋白 旦 球形 , 男 一 些 呈 纤维 状 。 亚 基数 目 大 于 4 的 蛋白 质 ,其 四 级 结构 可 以 呈现 多 种 排 
列 方式 和 不 同 的 对 称 性 。 

具有 四 级 结构 的 蛋白 质 通常 有 多 个 相同 或 不 同 的 活性 位 点 , 比 单纯 的 三 级 结构 蛋白 质 
具有 更 复杂 的 功能 和 调节 机 制 。 很 多 膜 蛋 白 是 由 多 个 或 多 种 亚 基 组 成 的 具有 四 级 结构 的 蛋 
白质 ,可 以 承担 多 种 多 样 的 功能 ,大 多 数 是 起 通道 和 运转 作用 的 蛋白 质 以 及 受 体 类 和 蛋白 质 。 

形成 四 级 结构 全 部 依靠 非 共 价 键 相 互 作用 ,来 自 不 同 亚 基 的 二 级 结构 间 可 发 生 强 的 相 
互 作用 以 稳定 四 级 结构 ,如 生成 跨 亚 基 的 更 大 B- 折 县 结构 或 w -螺旋 聚集 体 ; 其 中 , 氧 键 、 
玻 水 相互 作用 和 静电 作用 是 主要 维持 力 。 为 了 形成 稳定 的 四 级 结构 ,必然 要 求 相互 作用 的 
任 两 个 蛋白 质 之 间 的 空间 外 形 互补 以 增加 接触 面 且 理化 性 质 互补 。 这 些 特 征 也 是 预测 蛋白 
质 间 相 互 作 用 时 有 用 的 辅助 判 据 。 

从 序列 预测 四 级 结构 实际 上 是 预测 不 同 蛋白 质 间 的 相互 作用 ,这 是 蛋白 质 功 能 预测 的 
重要 内 容 , 也 是 结构 生物 信息 学 的 重要 任务 。 





二 、 蛋 白质 结构 域 与 家 族 分 类 >> 


蛋白 质 的 复杂 结构 和 功能 依赖 于 多 个 结构 域 的 协同 ; 蛋白 质 缺 失 某 个 结构 域 ( domain ) 
则 其 必然 缺失 对 应 的 生物 化 学 功能 。 据 蛋白 质 序 列 相 似 度 或 生物 化 学 功能 与 结构 的 相似 度 
可 将 蛋白 质 分 类 为 家 族 ( family ); 同一 家 族 蛋 白质 有 某 种 类 似 的 生物 化 学 功能 或 者 类 似 的 
高 级 结构 。 因 此 ,了 解 蛋白 质 结构 域 及 家 族 分 类 信息 ,对 于 和 蛋白质 结构 分 析 有 着 很 重要 的 


(一 ) 蛋白 质 结构 域 


结构 域 是 构成 蛋白 质 亚 基 的 紧密 球状 区 域 , 为 介 于 二 级 与 三 级 结构 之 间 的 一 种 结构 层 
次 ; 是 蛋白 质 中 可 以 具有 独立 三 级 结构 的 部 分 ,通常 由 一 个 基因 外 显 子 编码 ,并 可 具有 特定 
的 功能 。 在 较 大 的 和 蛋白质 中 结构 域 之 间 通 过 较 短 的 多 肽 柔性 区 互相 连接 ; 蛋白 质 的 结构 域 
有 时 还 可 分 为 一 些 次 级 结构 , 称 为 组 件 (module )。 组 件 是 在 稳定 的 蛋白 质 功 能 域 中 常见 的 
一 种 进化 上 保守 而 又 独立 的 折 芭 单位 ,也 是 在 进化 压力 下 发 生 外 显 子 迁 移 的 基本 单位 , 它 还 
参与 新 基因 的 产生 。 结 构 域 可 以 作为 蛋白 质 三 级 结构 的 组 件 ,通常 不 具有 完整 的 生物 学 功 
能 但 有 特殊 的 生物 化 学 作用 ,这 也 是 结构 域 与 三 级 结构 的 关键 区 别 。 

一 级 结构 氨基 酸 序 列 的 某 些 区 域 相 邻 的 氨基 酸 残 基 形成 有 规则 的 二 级 结构 (如 a - 螺 
旋 、B -折合 、B -转角 和 无 规 卷曲 等 ); 然后 再 把 相 邻 的 二 级 结构 片段 集 装 在 一 起 ,形成 超 二 
级 结构 ; 在 此 基础 上 ,多 肽 链 再 进一步 折 和 县 ,成 为 近乎 球状 的 三 级 结构 就 可 成 为 一 个 结构 域 。 
最 常见 的 结构 域 含 有 约 100~200 个 氨基 酸 残 基 ,一般 至 少 40 个 ,多 的 可 达 400 个 以 上 ; 对 于 较 
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小 的 蛋白 质 分 子 或 亚 基 ,其 结构 和 功能 都 较 简 单 ,难以 区 分 出 独立 的 不 同 结构 域 , 这 类 和 蛋白 
质 属于 单 结 构 域 分 子 ( 如 卵 溶菌 酶 等 )。， 对 于 一 个 较 大 球状 蛋白 质 分 子 来 说 ,一 条 很 长 多 肽 
链 往往 由 两 个 或 两 个 以 上 相对 独立 的 三 维 实体 缔 合 形成 三 维 结构 体 。 从 功能 角度 看 ,很 多 
蛋白 质 属于 多 结构 域 的 蛋白 ,其 功能 位 点 基本 都 位 于 结构 域 之 间 , 这 是 由 于 : 中 通过 结构 域 
容易 构建 具有 特定 三 维 排 布 的 功能 中 心 ; @ 结 构 域 之 间 常 只 有 一 段 肽 链 相 连 ,使 结构 域 之 间 
容易 发 生 相 对 运动 ,这 将 有 利于 功能 位 点 与 对 应 成 分 相互 作用 或 施加 应 力 , 有 利于 产生 别 构 
效应 而 对 蛋白 质 的 功能 实现 精细 调节 。 


(二 ) 蛋白 质 家 族 分 类 


蛋白 质 结构 域 对 于 了 解 蛋白 质 的 结构 和 功能 意义 重大 。 目 前 建立 在 结构 域 基础 上 的 和 蛋 
白质 家 族 数据 库 有 PROSITE PRINTS, Pfam, SMART, SWISS, PROT, ProDom 和 BLOCKS 等 。 因 
为 每 个 数据 库 都 有 各 自 的 分 类 原则 和 积分 标准 ,将 它们 结合 起 来 可 以 更 准确 地 归 类 和 蛋白 质 
家 族 和 描绘 结构 域 。 随 之 出 现 了 InterPro 数 据 库 , 它 是 将 蛋白 质 的 结构 域 和 功能 位 点 加 以 统 
一 而 建立 的 数据 库 资 源 。InterPro 联 合 PROSITE 、PRINTS 、Pfam 和 ProDom 四 个 独立 完整 的 蛋 
白质 结构 域 数 据 库 组 成 站 点 , 共 包 含 18 349 个 和 条目, 再现 了 5149 个 结构 域 .11 082 个 蛋白 质 家 
族 等 信息 。 此 外 , PDB, SCOP, CATH, HOMSTRAD, 、CAMPASS 等 蛋白 质 结构 数据 库 运 用 不 同 
的 原理 来 识别 结构 相似 的 蛋白 质 超 家 族 ; 蛋白 质 的 结构 域 在 进化 过 程 中 比 序列 保守 ,一 些 通 
过 核 背 酸 序列 识别 不 到 的 蛋白 质 超 家 族 在 这 些 数 据 库 中 可 以 被 用 户 检 索 查 询 得 到 ( 表 4-1 )。 


表 4-1 常用 的 蛋白 质 结构 域 查询 网 址 








数据 库 网 址 
PROSITE http: //www.expasy.ch/prosite/ 
BLOCKS http: //blocks.fherc.org/ 
Pfam http: //pfam.sanger.ac.uk/ 
ProDOM http: //prodom.prabi.fr/ 
SMART http: //smart.embl—heidelberg.de/ 
InterPro http: //www.ebi.ac.uk/interpro/ 
SBASE http: //www.icgeb.trieste.it/sbase 
PRINT http: //www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html 


三 、 蛋 白质 结构 可 视 化 软件 >> 


目前 已 有 和 蛋白质 高 级 结构 数据 存储 的 通用 格式 和 数据 库 , 可 通过 软件 将 蛋白 质 高 级 结 
构 可 视 化 ,这 些 资 源 是 蛋白 质 高 级 结构 信息 分 析 的 关键 基础 之 一 。 可 视 化 分 析 和 蛋白 质 的 高 
级 结构 有 利于 从 原子 间 相 互 作用 的 层次 理解 生命 活动 过 程 的 信息 控制 机 制 ,理解 蛋白 质 分 
子 结构 和 各 种 微观 性 质 与 宏观 性 质 之 间 的 关系 。 

(一 ) 常用 蛋白 质 分 子 图 形 系统 


目前 ,蛋白 质 分 子 图 形 学 软件 已 很 普及 ; 蛋白 质 结构 数据 可 从 蛋白质 数据库 中 直接 获 
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f. AER A) FEE IPR AG Ta a PA I S Be “| od FA 
设计 系统 (如 ACD FREE ) 或 商业 软件 ,就 可 开展 结构 生物 信息 学 的 探索 性 工作 。 

这 里 ,着 重 介绍 蛋白 质 三 维 图 形 相 关 的 软件 Pymol 的 基本 应 用 

L 软件 安装 、 启动 和 教程 Pymol 可 在 http: /www.pymol.org/ 寻 找 链 接 下 载 ,与 其 他 
Windows 系 统 下 软件 的 安装 相同 。 

Pymol 启 动 后 显示 双 界 面 ,对 分 子 进行 操作 的 常用 命令 及 按钮 都 集成 在 一 个 图 形 显示 界 
面 ,但 文件 读 入 、 背 景 设置 .操作 转变 、 图 像 输出 、 特 征 分 析 等 功能 主要 集中 在 男 一 个 不 显示 
分 子 图 形 且 使 用 下 拉 菜 单 的 界面 ,并 带 有 命令 行 操作 模式 ; 关闭 任意 窗口 则 程序 关闭 。 图 形 
界面 左上 侧 列 出 主要 的 可 操作 对 象 并 分 成 几 个 层次 ,包括 所 选 对 象 .蛋白 质 .整体 等 ; 每 个 层 
次 的 对 象 有 五 种 主要 操作 : 动作 ( Asaction ) 显 示 ( S; Show ) E 3C H; hide ) big L;Label )、 
上 色 ( C;Color )。Dispaly 下 拉 菜 单 中 可 设置 背景 (论文 中 这 类 图 一 般 用 白色 缘 景 ,而 报告 中 常 
用 黑色 背景 以 增加 视觉 效果 ), Wizard 中 有 测定 分 子 常用 性 质 的 模块 ,包括 距离 .电荷 等 ,以 
及 尝试 进行 蛋白 质 分 子 改造 的 功能 。 需 要 仔细 阅读 每 个 下 拉 菜 单 包含 的 功能 才 有 利于 发 挥 
该 软件 的 作用 。 可 先 读 入 教程 文件 进行 学 习 ( 图 4-1 ) 


PyHOL Tcl/Tk GUL 
Fle Edt Buld Movie Display Setting Scene Mouse Wizard Plugin 


COMPND 6 ENGINEERED: YES 

ObjectMolecule: Read secondary structure assignments. 
ObjectMolecule: Read crystal Symmetry information. 
symmetry: Found 18 symmetry operators. 

CmdLoad: "D:/2GRY.pdb" loaded as "2GRY". 








L PyHOL Viewer 
/2GRY//R/169 176 181 186 196 201 206 211 216 221 226 231 236 
EI 





My EZ 


图 4-1 Pymol 启 动 后 的 两 个 操作 界面 (上 下 两 个 窗口 ) ,随后 读 入 教程 所 用 结构 


2. 主要 的 分 子 图 形 操作 和 性 质 测定 ”鼠标 是 主要 的 图 形 操作 工具 , 左 键 旋 转 图 形 ,右键 
调整 大 小 ,也 可 在 另 一 个 窗口 的 下 拉 菜 单 中 选择 放大 缩小 ; 可 设置 鼠标 的 模式 (两 键 与 三 键 
鼠标 等 , 见 Mouse 下 拉 菜 单 )。 可 显示 蛋白 质 中 每 条 肽 链 的 序列 和 非 蛋白 质 成 分 ( 单 击 图 形 界 
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面 右 下 角 字 母 s 或 在 Display 下 拉 菜 单 中 选择 ); 鼠标 左 键 单 击 序列 选中 特定 待 操作 的 残 基 可 
同时 显示 对 象 所 在 位 置 ,在 Wizard 中 有 多 种 性 质 测定 功能 ,可 灵活 使 用 。 

Pymol 是 强大 的 分 子 图 形 显示 和 基本 特征 测定 系统 ,在 带 有 专业 显卡 的 计算 机 上 输出 
图 形 更 绚丽 。 但 Pymol 对 非 英 文 文件 名 和 长 文件 名 支持 不 够 。Pymol 自 带 二 级 结构 定义 词典 
但 对 a -螺旋 的 定义 不 严格 ,有 时 会 给 出 一 些 不 尽 合理 的 a -螺旋 ; 不 过 有 些 商业 软件 不 能 
识别 同 源 建 模 所 得 蛋白 质 中 的 二 级 结构 而 Pymol 可 以 识别 这 些 二 级 结构 ,这 是 Pymol 的 一 个 
优势 。 


(二 ) 集成 的 分 子 模拟 与 分 析 的 图 形 学 系统 


集成 结构 生物 信息 学 、 分 子 操作 绝 大 部 分 功能 和 MD 模拟 轨迹 分 析 等 功能 的 商业 软件 已 
面市 ,如 Insight II , Discover Studio 和 Sybyl 等 ; 这 些 商 业 图 形 操作 界面 系统 价格 不 菲 ,但 可 和 集 
成 在 图 形 界面 进行 分 子 模拟 、 分 子 对接 和 分 子 改造 等 操作 ,并 有 各 种 高 质量 的 图 形 显示 ,对 


应 用 研究 人 员 无 疑 可 事半功倍 。 
(三 ) 其 他 的 蛋白 质 可 视 化 软件 介绍 


还 有 很 多 界面 友好 的 蛋白 质 结构 可 视 化 软件 和 在 线 服 务 器 ,如 RasMol 和 Jmol 等 ,已 与 
PDB 数据 库 链 接 ; 男 外 还 有 Cn3D、Mage、KiNG 等 可 视 化 软件 ( 表 4-2 )。 


软件 名 称 


RasMol 


Jmol 


Cn3D 


QuickPDB 


Mage 


表 4-2 目前 常用 的 蛋白 质 可 视 化 软件 


RR N 
直观 再 现 生 物 分 子 3D 微 观 立 体 结构 ; 提供 可 以 旋转 等 多 个 模式 
效果 图 ; 提供 多 种 结果 图 片 存储 形式 ; 提供 命令 行 操作 , 源 代码 
开放 用 户 可 自行 维护 


以 3D 形 式 查看 蛋白 质 等 生物 大 分 子 化 学 结构 ,提供 命令 行 操 
作 , 提 供 结构 查 询 工 具 ,基于 网 络 界 面 可 通过 网 址 或 本 地 文件 
读 取 结构 ,无 需 安装 (Jmol 提供 的 功能 适用 于 小 分 子 ,晶体 , 材 
料 和 生物 分 子 ) 

生物 分 子 三 维 结构 、 序 列 以 及 序列 比 对 结果 的 可 视 化 工具 ; 读 
取 输 入 数据 格式 为 MMDB 格 式 文件 ,不 能 读 取 PDB 格 式 文件 ; 可 
紧密 联系 结构 与 序列 信息 ,可 根据 基于 结构 的 序列 比较 显示 分 
子 结构 之 间 的 关系 ; 可 自 定义 标签 特征 ,输出 结果 格式 多 样 , 并 
可 对 结果 进行 文献 注释 ; 通过 网 络 浏览 器 来 作为 NCBI 的 Entrez 
系统 的 一 个 辅助 工具 ,也 可 作为 一 个 独立 的 程序 使 用 


用 JAVA 编 译 的 显示 结构 和 序列 的 工具 ; 网 络 浏览 可 直接 显示 
序列 信息 ,可 以 控制 设置 残 基 属 性 等 ; 支持 多 种 文件 格式 输入 、 
可 以 不 同形 式 显 示 三 维 结构 

广泛 应 用 于 教学 与 研究 中 ,输入 为 *.kinemage 文 件 格式 ,该 文件 
内 含有 和 蛋白质 结构 的 各 种 信息 与 相关 命令 ; 可 实时 旋转 效果 
图 、 并 对 效果 图 进行 蛋白 质 结构 的 三 维 动画 演示 ,部 分 图 像 可 
隐藏 和 显示 ; 输出 格式 为 .kinemage, 也 可 以 多 种 其 他 格式 输出 








”下载 地 址 
http: //www.bernstein— 
plus-sons.com/software/ 


rasmol/ 


http: //jmol.sourceforge.net/ 


http: //www.ncbi.nlm.nih. 
gov/Structure/CN3D/cn3d. 
shtml 


http: //www.sdsc.edu/pb/ 


Software.html 


http: //kinemage.biochem. 
duke.edu/software/mage. 


php 
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软件 名 称 


VMD 


KiNG 


Spdbv 


WebMol 


Raster3D 
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“主要 功能 
主要 处 理 目标 是 分 子 动力 学 数据 ,可 对 生物 分 子 进行 结构 分 析 
和 表征 ; 提供 多 用 途 交互 式 图 形 界面 操作 ; 开源 并 提供 强大 有 
本 语言 ,可 用 于 程序 扩展 


KiNG 即 Kinemage, 是 在 Mage, JavaMage 和 Kinemage 软 件 基础 上 
发 展 起 来 的 三 维 分 子 显示 软件 ,可 展示 生物 大 分 子 结构 


即 Swiss-Pdb Viewer 或 DeepViewer。 可 同时 分 析 几 个 蛋白 质 的 
PDB 文 件 并 分 析 结 构 相 似 性 、 比 较 活性 位 点 或 其 他 有 关 位 点 ; 
可 以 很 容易 获得 氢 键 、 角 度 .原子 距离 氨基酸 突变 等 数据 ; 可 
直接 从 软件 连接 到 Swiss-Model 服 务 器 对 蛋白 质 理论 立体 结构 
进行 构建 ,并 调用 POV-Ray 软 件 生成 高 质量 的 结构 图 像 


用 JAVA 语言 编译 的 结构 呈现 程序 ,网 络 浏览 ,可 从 URL 上 载 
结构 





可 显示 蛋白 质 三 维 结构 并 生成 蛋白 质 结构 的 分 子 艺术 图 片 
(TIFF 格 式 与 JPG 格 式 ) 


续 表 
下 载 地 址 
http: //www.ks.uiuc.edu/ 
Research/vmd/ 


http: //kinemage.biochem. 
duke.edu/software/king.php 


http: //mac.softpedia. 
com/get/Math-Scientific/ 
SPDBV.shtml 


http: //www.cmpharm. 
ucsf.edu/~walther/webmol/ 


download.html 


http: //www.fyxm.net/ 
Raster3D-93918.html 
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Section 2 Analysis and Prediction of Protein Structure 


一 、 蛋 白质 结构 实验 检测 技术 与 结构 解析 >> 


蛋白 质 及 其 复合 物 、 组 装 体 的 完整 精确 的 三 维 结构 的 测定 是 研究 生命 活动 中 分 子 结构 
和 功能 关系 ,揭示 生命 现象 本 质 的 基础 。 根 据 蛋 白质 的 状态 ,测定 蛋白 质 三 维 结构 的 方法 分 
为 两 大 类 : 中 应 用 X 射 线 唱 体 衍射 图 谱 法 ,冷冻 电子 显微镜 技术 和 中 子 衍射 法 测定 晶体 中 的 
蛋白 质 分 子 构象 ; @ 应 用 磁 共 振 波 谱 分 析 法 `. 园 ( 圆 ) 二 色 性 光谱 法 激光 拉 曼 光谱 法 、 荧 光 
光谱 法 、 紫 外 差 光 谱 法 和 氢 放 射 性 核 素 交换 法 等 测定 溶液 中 的 蛋白 质 构 象 。 近 几 年 来 近 场 
光学 光谱 技术 表面 等 离子 体 激 元 共振 技术 、 化 学 交 联 法 等 也 用 于 获得 蛋白 质 的 静态 或 动态 
结构 信息 。 


(一 ) 蛋白 质 晶体 结构 X 一 衍射 分 析 


X- 射 线 唱 体 分 析 法 (X=-ray diffraction crystallography ) 是 解析 生物 大 分 子 结构 的 基本 方 
法 ,也 是 目前 分 辩 率 最 高 的 方法 ,已 用 于 大 量 和 蛋白 质 的 三 维 结构 的 解析 。 该 法 需要 将 待 分 
析 的 蛋白 质 形成 晶体 ,所 用 蛋白 质 样品 量 很 大 ,故常 将 该 蛋白 的 基因 克隆 到 表达 载体 ,在 特 
定 宿主 细胞 (如 大 肠 埃 希 菌 ) 中 诱导 表达 ,纯化 后 优化 条 件 结晶 ; 然后 将 晶体 进行 X 射 线 衍 
射 , 收 集 并 整合 相应 的 衍射 图 谱 , 通 过 复杂 的 计算 和 数据 解析 过 程 得 到 蛋白 质 中 的 原子 坐标 
信息 。 

高 通 量 晶体 结构 解析 主要 涉及 数据 处 理 与 分 析 、 重 原子 的 定位 、 密 度 修饰 .分子 蔡 换 、 
图 形 整 合 、 模 型 加 工 和 确认 等 环节 。X 射线 衍射 实验 记录 的 是 衍射 点 的 强度 和 方位 ,从 衍射 
点 的 强度 可 推算 出 该 点 的 结构 振幅 , 而 该 衍射 点 的 相 角 信息 却 无 法 从 实验 中 直接 得 到 。 因 
此 , 唱 体 结构 分 析 的 核心 问题 就 是 要 找 出 各 衍射 点 的 位 相 。 唱 体 衍 射 数据 分 析 的 常用 软件 
有 XRayView、SOLVE 和 RESOLVE 等 。XRayView 适用 于 X 射 线 衍射 晶体 数据 的 交互 式 动 态 
分 析 , 涉 及 唱 胞 的 构建 .品格 的 确定 、 系 统 消光 、 旋 转 摄 影 、 空 间 群 的 确定 及 Laue 群 对 称 性 等 。 
X-PLOR 是 适用 于 计算 结构 生物 学 的 程序 系统 ,通过 经 验 能 量 函 数 及 实验 数据 的 限定 ,进行 
大 分 子 空间 构象 的 开发 ,该 程序 主要 用 于 对 X- 射 线 衍射 数据 及 NMR 核 磁 共 振 数 据 的 分 析 。 
优化 和 蛋白质 结晶 条 件 、 快 速 处 理 品 体 衍射 数据 是 目前 和 蛋白质 晶体 结构 分 析 的 两 大 难题 ; 发 展 
高 通 量 的 蛋白 结晶 技术 和 高 可 靠 性 的 结构 解析 技术 ,是 当前 结构 生物 学 的 重要 任务 。 随 着 
晶体 结构 的 运算 法 则 和 计算 机 科学 的 发 展 ,新 一 代 的 自动 化 分 析 软 件 将 进一步 解决 高 通 量 
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结构 分 析 的 技术 问题 ,并 将 适时 处 理 各 种 衍射 数据 和 加 快 图 形 整合 过 程 。 
(=) 磁 共 振 波 谱 分 析 


人 磁 共 振 ( nuclear magnetic resonance, NMR ) 是 以 组 成 蛋白 质 的 最 基本 元 素 : C、N、H、0 
等 原子 的 原子 核 为 探 针 检测 蛋白 质 的 结构 信息 的 。 而 原子 核 自 旋 量子 数 I=1/2 的 核 : 1H、 
13C 15N 是 多 维 磁 共振 检测 的 主要 对 象 。 在 外 加 静 磁 场 Hu, 即 恒定 超 导 磁 场 的 作用 下 ,这 些 
核 自 旋 量 子 数 不 为 零 的 原子 核 会 发 生 能 级 分 裂 。 如 果 同 时 将 射频 磁场 Hi 作 用 到 原子 核 系 统 
上 , 当 射 频 场 频率 o MEKA: w= y Ho, 原 子 核 将 吸收 射频 场 能 量 从 低能 级 跃迁 到 高 能 
级 。 这 种 共振 跃迁 现象 就 是 磁 共振 现象 。 上 述 关系 式 即 为 磁 共 振 条 件 。 式 中 y 为 旋 磁 比 。 
不 同 的 原子 核 的 旋 磁 比 不同 , 因 而 1H,13C,15N 的 磁 共 振 频 率 不 同 ,所 以 有 磁 共 振 氢 谱 、 碳 
谱 、 毛 谱 之 分 。 对 蛋白 质 溶液 样品 进行 各 种 类 型 的 同 核 或 异 核 多维 磁 共振 实验 ,并 由 这 些 实 
验 所 提供 的 磁 共 振 波谱 信息 ,建立 用 于 溶液 中 和 蛋白质 三 维 结构 计算 的 磁 共 振 数据 文件 ,这 是 
多 维 磁 共振 方法 确定 溶液 中 和 蛋白质 三 维 结构 的 思想 。 

目前 ,用 NMR 测 定 蛋 白质 结构 的 数据 处 理 涉及 许多 复杂 的 算法 。 磁 共振 波谱 的 谱 峰 包 
含有 相当 丰富 的 与 蛋白 质 分 子 结 构 有 关 的 波谱 信息 ,它们 由 波谱 参数 表示 。 此 过 程 中 首先 
是 将 磁 共 振 的 信号 经 过 依 里 叶 变 换 转换 为 不 同 的 峰值 ,然后 采集 各 种 不 同 的 峰 组 成 图 谱 ,并 
筛选 出 具有 特定 结构 特征 的 图 谱 。 这 些 过 程 常用 NMRPipe 和 SPARKY 软 件 ( http: //www.cgl. 
ucsf.edu/home/sparky/ ) 处 理 , 也 使 用 DGI 、XEASY、DYANA 和 GARANT 等 软件 分 析 计 算 蛋 白 
质 三 维 结构 , 侧 链 或 骨架 结构 。 即 在 具体 计算 蛋白 质 结构 过 程 中 ,无 论 是 运用 哪 一 个 基于 距 
离 几 何方 法 的 计算 软件 ,都 是 将 磁 共 振 波谱 提供 的 NOE 和 J 耦合 常数 数据 转换 为 用 于 结构 
计算 的 距离 约束 、 二 面 角 约 束 、 手 性 等 结构 数据 文件 ,其 中 也 包括 形成 氧 键 的 原子 对 之 间距 
离 的 约束 ; 结合 从 蛋白 质 氨基 酸 组 分 得 到 的 蛋白 质 分 子 中 的 键 角 、 键 长 . 手 性 等 经 验 数 据 ， 
建立 约束 和 矩阵。 然后 ,将 距离 空间 的 约束 和 矩阵 转换 为 坐标 空间 的 矩阵 。 接 着 ,由 坐标 空间 拢 
阵 构 建 蛋白 质 三 维 结构 的 初始 结构 模型 。 最 后 ,运用 模拟 退火 等 计算 方法 对 初始 结构 进行 
优化 ,并 由 分 子 动力 学 进行 能 量 最 小 化 计算 ,由 此 得 到 一 组 收敛 的 蛋白 质 三 维 结构 的 空间 坐 
标 , 即 获得 由 磁 共振 实验 数据 导出 的 蛋白 质 溶 液 三 维 结构 的 一 系列 可 能 的 构象 集合 。 

与 X- 衍 射 晶体 分 析 技 术 相 比较 , NMR 技 术 尽管 在 蛋白 质 结构 测定 中 限制 较 大 ,但 其 无 
需 制备 晶体 , 故 NMR 法 常用 于 解析 无 法 获得 晶体 的 蛋白 质 或 膜 蛋 白 的 结构 。 目 前 , NMR 技 
术 主 要 用 于 解析 分 子 量 在 20kD 以 下 且 水 溶性 很 好 但 培养 晶体 困难 的 蛋白 质 结 构 。 由 于 其 分 
析 过 程 可 在 溶液 状态 进行 ,从 而 得 到 和 蛋白质 分 子 在 溶液 中 的 构象 ,条 件 更 接近 于 蛋白 质 的 生 
理 状态 ,是 研究 蛋白 质 的 折 释 和 构象 稳定 性 对 生理 环境 温度 ` 盐 浓度 、pH 等 环境 条 件 变化 敏 
感性 的 重要 工具 。 在 溶液 环境 中 ,可 以 观察 到 整个 结构 表面 的 一 些 松散 肽 链 的 运动 性 ,而 蛋 
白质 的 功能 部 位 往往 是 在 整个 结构 的 表面 ,因此 , NMR 是 研究 蛋白 质 与 蛋白 质 .蛋白质 与 小 
分 子 配 体 间 相 互 作用 的 动力 学 特征 和 性 质 的 有 效 手 段 。 随 着 NMR 技 术 的 发 展 , NMR 所 用 磁 
场 强度 的 增强 .计算 资源 的 提升 和 分 析 软 件 的 进一步 发 展 完善 , 磁 共 振 技术 在 蛋白 质 结构 解 
析 领 域 的 应 用 会 越 来 越 广泛 。 


(=) 冷冻 电子 显微镜 技术 
冷冻 电子 显微镜 ( cryoelectron microscopy ) 技 术 已 成 为 研究 生物 大 分 子 结构 与 功能 的 强 
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有 力 手段 。 该 技术 大 致 包括 样品 制备 、 数 据 采集 和 图 像 处 理 以 及 三 维 重 构 等 环节 ,其 确定 三 
维 结构 的 方法 主要 有 电子 品 体 学 方法 、 单 粒子 重 构 法 和 电子 断层 成 像 技 术 。 这 种 方法 采用 
高 压 快速 液 氮 冷冻 方法 使 样品 包 埋 在 玻璃 态 的 水 环境 中 ,这 种 环境 也 接近 于 生理 状态 ,减少 
了 样品 在 制备 过 程 中 的 结构 破坏 ,以 便 观察 生物 大 分 子 在 天 然 状 态 下 的 结构 ; 同时 冷冻 的 速 
度 极 快 ,这 就 有 可 能 把 细胞 在 其 生理 活动 (例如 ,肌肉 收缩 ) 的 某 些 特定 时 刻 固定 下 来 ,并 显 
示 此 时 的 结构 特点 ,进而 可 通过 不 同 功能 状态 的 瞬时 构象 变化 来 研究 生物 分 子 的 功能 。 故 
冷冻 电镜 获得 的 是 处 于 天 然 状 态 下 未 经 染色 的 分 子 的 二 维 投影 像 。 将 样品 进行 不 同 角 度 倾 
和 斜 所 获得 的 数据 进行 综合 分 析 , 并 依据 样品 的 不 同 特性 使 用 不 同 的 重 构 技 术 获 得 分 子 的 结 
构 ,在 此 基础 上 观察 多 种 成 分 的 图 像 变 化 ,可 追踪 生物 大 分 子 的 装配 及 其 动力 学 过 程 。 

冷冻 电子 显微镜 技术 主要 用 于 和 蛋白质 及 其 复合 物 的 外 部 形 貌 观察 ,可 用 不 同 的 方法 对 
均一 的 (如 膜 蛋 白 的 二 维 唱 体 , 二 十 面体 对 称 的 病毒 等 对 称 结构 ) 和 不 均一 的 (如 核糖 体 等 ) 
样品 进行 三 维 结构 重 构 , 同 时 可 应 用 的 蛋白 质 分 子 大 小 范围 很 宽 。 使 用 冷冻 电子 显微镜 技 
术 观 察 生物 大 分 子 的 空间 构象 需要 借助 生物 信息 学 方法 和 模式 识别 ( pattern recognition )、 数 
据 库 分 析 、 同 源 建 模 ( homology modeling ) 等 技术 的 整合 。 由 冷冻 电镜 技术 所 获得 的 蛋白 质 
三 维 结构 与 X 射 线 晶体 技术 得 到 的 结构 非常 相似 ,而 且 其 信 噪 比 非常 低 , 并 且 适 合 于 膜 蛋白 
的 分 析 。 可 用 于 处 理 和 分 析 数 据 的 软件 有 CCP4、CNS、EM3D.、 Bsoft、EMStudio、IMAGIC 等 。 
此 技术 目前 应 用 面 并 不 太 广 ,也 没有 形成 相应 的 数据 库 。 各 种 相关 技术 的 发 展 和 整合 将 为 
研究 生命 现象 与 本 质 提 供 强 有 力 的 技术 手段 。 


(四 ) 化 学 交 联 (cross—linking) 法 


近年 来 出 现 了 一 种 可 以 获得 蛋白 质 结构 信息 以 及 蛋白 质 相 互 作用 信息 的 新 方法 一 化 学 
交 联 ( cross-linking ) 法 , 即 在 蛋白 质 样 品 中 加 入 适量 的 化 学 交 联 剂 ( chemical cross-linker ), 
使 蛋白 质 内 部 或 不 同 蛋白 质 之 间 发 生 交 联 反应 ,实现 对 蛋白 质 中 各 个 氨基 酸 侧 链 或 官能 
团 空 间 位 置 的 定位 ,再 应 用 现代 质谱 法 鉴定 氨基 酸 侧 链 或 官能 团 , 获 得 氨基 酸 或 官能 团 的 
相对 空间 距离 ,构建 重 白 质 的 空间 结构 及 蛋白质 复合 体 亚 基 的 空间 排列 位 置 ,以 及 获得 和 蛋 
白质 相互 作用 的 信息 。 通 常 采用 MS2Assign 和 MS2PRO 软 件 对 交 联 肽 段 的 MS/MS 进行 分 
析 ; SearchXLinks 软件 可 用 于 和 蛋白质 二 硫 键 质谱 分 析 ; 利用 general protein/mass analysis for 
windows( GPAMW ) 软件 对 MALDI-TOFMS 或 ESI-MS 对 水 解 后 的 混合 肽 段 进行 分 析 ; 还 有 
其 他 的 软件 可 用 于 化 学 交 联 质谱 数据 分 析 如 Automated Spectrum Assignment Program ( ASPA ) 
VirtualMSLab 等 。 化 学 交 联 法 与 质谱 法 的 有 机 结合 有 如 下 优点 : 中 被 分 析 蛋 白质 或 蛋白 质 复 
合体 的 分 子 量 ( molecular weight, MW ) 从 理论 上 说 是 无 限 的 ,如 果 被 分 析 物 的 分 子 量 过 大 ， 
可 以 采用 Bottom-up 分 析 策 略 ; 质谱 分 析 速 度 十 分 迅速 ,可 以 极 大 缩短 分 析 时 间 ; @@ 质 谱 检 
测 灵敏 度 极 高 ,被 分 析 的 蛋白 质 只 需 飞 摩尔 ( femtomole ) 级 的 量 就 可 满足 实验 要 求 ; ODF 
获得 浴 液 中 蛋白 质 三 维 结构 信息 ,并 可 鉴定 出 蛋白 质 的 可 变 结构 域 ; 化 学 交 联 法 结合 质谱 
法 在 膜 蛋白 研究 领域 的 应 用 与 其 他 传统 方法 相 比 有 其 独特 的 优势 。 





二 、 蛋 白质 结构 数据 库 >> 


蛋白质 三 维 结构 数据 库 是 一 类 重要 的 生物 分 子 信息 数据 库 , 是 结构 生物 信息 学 的 关键 
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组 成 。 随 着 X- 射 线 晶 体 衍射 技术 、NMR 和 冷冻 电子 显微镜 技术 等 的 发 展 ,很 多 和 蛋白质 的 结 
构 已 被 测定 ; 随 着 蛋白 质 结构 分 类 研究 的 深入 ,出 现 了 和 蛋白质 家 族 、 折 又 模式 结构 域 . 回 环 
等 数据 库 。 总 体 而 言 ,目前 常用 的 蛋白 质 结 构 数 据 库 主要 是 存储 蛋白 质 结 构 的 PDB 数据 库 
( protein data bank, PDB ) 进 行 蛋白 质 结构 比较 的 SCOP 和 CATH ,及 存储 次 级 结构 的 targetDB、 
FSSP、DSSP 等 。 


(一 ) 蛋白 质 三 维 结构 数据 库 PBD 


PDB 是 用 于 保存 生物 大 分 子 结构 数据 的 常用 数据 库 ,由 美国 Brookhaven 国 家 实验 室 于 
1971 年 创建 。1998 年 10 月 为 适应 结构 基因 组 和 生物 信息 学 研究 的 需要 ,由 美国 国家 科学 基 
金 委 员 会 能源 部 和 卫生 研究 院 资助 成 立 了 结构 生物 学 合作 研究 协会 ( research collaboratory 
for structural bioinformat-ics, RCSB )。 之 后 PDB 数据 库 的 维护 主要 是 由 该 组 织 负 责 , 目 前 主要 
成 员 为 拉 特 格 斯 大 学 ( Rutgers University 人) 圣地亚哥 超级 计算 中 心 (San Diego supercomputer 
center, SDSC ) 和 国家 标准 化 研究 所 ( national institutes of standards and technology, NIST )。 
PDB 数据 库 网 站 主页 见 图 4-2。 
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PDB 中 包含 了 通过 X 射 线 单 晶 衍 射 、 磁 共振 .电子 衍射 等 实验 手段 确定 的 和 蛋白质、 多 糖 、 
核酸 等 生物 大 分 子 的 三 维 结构 数据 。 目 前 PDB 数据 库 的 信息 每 周 进 行 更 新 ,截止 到 2011 年 
11 月 1 日 , PDB 总 共 收 录 了 76 970 条 结构 数据 ,其 中 ,收录 和 蛋白质 结构 为 71 309 条 ,收录 核酸 
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3326 和 条。 详细 数据 见 表 4-3。 





X4-3 PDB 数据 库 收 录 条 目 一 览 表 


分 子 类 型 
OS Ba = oe a ee eee 总 数 
zu 蛋白 质 核酸 蛋白 /核酸 复合 物 其 他 
X- 射 线 衍射 62 894 1323 3053 2 67 272 
NMR 7970 960 179 7 9116 
电镜 262 22 97 0 381 
其 他 133 4 5 13 155 
总 数 71 300 2312 3335 23 76 970 


PDB 数据 库 以 文本 文件 的 方式 存放 数据 ,每 个 分 子 各 用 一 个 独立 的 文件 存放 。 文 件 中 
除了 原子 坐标 外 ,还 包括 物种 来 源 、 化 合 物 名 称 、 结 构 以 及 有 关 文 献 等 基本 注释 信息 。 此 
外 ,还 给 出 分 辨 率 、 结 构 因 子 、 温 度 系数 、 蛋 白质 主 链 数目 、 配 体 分 子 式 、 金 属 离 子 、 二 级 结 
构 信 息 、 二 硫 键 位 置 等 和 结构 有 关 的 数据 。 除 了 能 以 文本 编辑 的 方式 查看 这 些 数据 外 ,还 
可 以 利用 一 些 图 形 软件 直观 观察 蛋白 质 的 三 维 结构 ,例如 VMD 、Jmol、Swiss-PDBviewer 及 
RasMol 等 。 

在 PDB 中 收集 的 结构 数据 都 有 一 个 唯一 的 PDB-ID, 它 包含 4 个 字符 ,由 大 写字 母 和 数字 
组 成 (如 血红 蛋白 的 PDB-ID 为 4HHB )。PDB-ID 编 码 系统 较 复杂 ,没有 特征 明显 的 顺序 ,但 
相关 的 结构 数据 的 PDB-ID 仍 然 有 明显 的 联系 。PDB 数 据 库 允许 用 户 用 各 种 方式 以 及 布尔 
逻辑 组 合 ( AND 、OR 和 NOT ) 进行 检索 ,可 检索 的 字段 包括 功能 类 别 、PDB 人 代码、 名称、 作者 、 
空间 群 分 辩 率 来源. 人 库 时 间 、 分 子 式 .参考 文献 .生物 来 源 等 项 。 用 户 不 仅 可 以 得 到 生物 
大 分 子 的 各 种 注释 坐标、 三 维 图 形 , 并 能 得 到 一 系列 与 PDB 相关 数据 库 的 链接 ,包括 SCOP、 
CATH, Medline, ENZYME 、 SWISS-3DIMAGE 等 。 

作为 主要 存储 蛋白 质 结构 的 数据 库 , PDB 还 提供 多 种 界面 交互 方式 实现 用 户 对 PDB 
数据 的 浏览 ,可 通过 三 种 查询 方式 对 其 主要 服务 器 站 点 SDSC、Rutgers、NIST 和 其 镜像 网 
站 进行 查询 ,也 可 进行 相应 数据 的 下 载 操作 。 数 据 库 的 查询 方式 ( 表 4-4 ): (D1999 年 2 月 
建立 的 SearchLite 是 一 个 关键 词 检索 工具 ,在 该 界面 的 对 话 框 内 键入 与 生物 大 分 子 相 关 
的 关键 词 ,点 “Search” 或 者 回 车 键 即 可 ,如 键入 “protein kinase”, 则 可 以 查询 所 有 包含 焦 
白 激酶 的 结构 。PDB 中 所 有 原文 资料 .存储 和 发 布 日 期 以 及 一 些 实验 数据 可 以 通过 简单 
的 浏览 或 结构 浏览 得 到 ; @SearchFields 是 1999 年 5 月 建立 的 一 个 惯用 浏览 方式 ,可 以 用 化 
合 物 、 作 者 引用 、 序 列 ( 通 过 FASTA 搜 索 )、 存 储 日 期 或 发 布 日 期 来 查询 。 当 用 SearchLite 或 
SearchFields 浏 览 时 ,在 “Query Result Brower” 的 界面 可 得 到 一 些 综合 信息 及 图 表 中 的 详 
细 信 息 ,并 可 下 载 PDB 中 系列 数据 文件 ,下 载 的 数据 以 纯 文 本 格式 或 压缩 文件 的 形式 保存 。 
"Struture Explorer” 界 面 提供 每 个 蛋白 质 结构 的 信息 以 及 与 许多 大 分 子 结 构 数 据 库 的 交 又 
链接 。 
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表 4-4 数据 库 查 询 方式 








SearchLite ”PDB 所 包含 的 任意 词 或 词组 


1 一 般 信息 : PDB 编码 ,作者 以 用 , 链 型 (蛋白 质 .DNA 等 ), PDB HEADER ,试验 方法 ,存储 
或 发 布 日 期 ,复合 物资 料 , BC 数字 或 上 下 文 检索 
2. 序列 或 二 级 结构 : 链 长 , FASTA 检索 , 短 序列 方式 和 二 级 结构 内 容 检索 

、3. 晶体 试验 信息 : 溶剂 ,空间 基 团 , 单 体 相 关 参 数 


Status ”PDB 编 码 ,存储 信息 作者 ,题目 ,存储 日 期 或 发 布 日 其 


SearchFields 





【 例 4-1 ] 在 PDB 数据 库 中 检索 人 类 驱动 蛋白 相关 的 结构 信息 和 可 视 化 过 程 (图 4-3 )。 
利用 搜索 关键 字 “HUMAN KINESIN” 在 PDB 数据 库 主 页 搜索 框 内 进行 搜索 ; 点 击 查 
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1BG2 结 构 展示 图 


Biological Assembly Image for 1862 
HUMAN UBIOUITOUS KINESIN MOTOR DOMAIN CLOSE x< 


图 4-3 在 PDB 数据 库 中 搜索 人 类 驱动 蛋白 结构 的 结果 


询 结果 页 面 的 一 个 检索 条 目 1BG2 ,打开 其 链接 页 面 ; 在 结果 页 面 右 侧 列表 信息 中 查看 生物 
结构 信息 面板 “Biological Assembly” 部 分 ; 点 击 “Biological Assembly” 面板 查看 1BG2 结 构 
图 (需要 JavaScript 插 件 ); 在 结果 页 面 中 ,可 查看 提供 该 蛋白 质 结 构 的 作者 信息 (Deposition 
Summary ) 及 实验 细节 信息 ( Experimental Details ,包括 分 辨 率 resolution .空间 群 space group fil 
近 体 的 单位 晶 胞 尺度 unit cell dimension 等 )。 另 外 ,还 可 以 链接 到 其 他 一 些 浏览 结构 信息 的 
可 视 化 工具 如 Jmol、 Kiosk 等 进行 精细 结构 的 观察 和 分 析 。 


(二 ) 蛋白 质 结 构 分 类 数据 库 SCOP 


蛋白质 结构 分 类 数据 库 ( structural classification of protein, SCOP ) 是 对 已 知 结构 蛋白 质 进 
行 分 类 的 数据 库 (图 4-4 ), 根 据 不 同 蛋 白 的 氨基 酸 组 成 及 三 级 结构 的 相似 性 ,详细 描述 已 知 
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结构 蛋白 间 的 功能 及 进化 关系 ; SCOP 数 据 库 的 构建 除了 使 用 计算 机 程序 外 ,主要 依赖 于 人 工 
验证 。SCOP 数 据 库 建立 于 1994 年 ,数据 库 中 信息 主要 由 Alexdi G Murzin 和 其 同事 每 年 更 新 。 


^ 


Structural Classification of Proteins 





Welcome to SCOP: Structural Classification of Proteins. 
1.75 release (June 2009) 





38221 PDB Entries. 1 Literature Reference. 110800 Domains. (excluding nucleic 
acids and theoretical models). 
Folds, superfamilies, and families statistics here. 
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Authors. Alexey G. Murzin, JohnMarc Chandonia, Antonina Andreeva, Dave Howorth, Loredana Lo Conte, Bartlett G. Ailey, 

Steven E. Brenner, Tim J. P. Hubbard, and Cyrus Chothia. scop c-lmb. cam. ac. 

Reference: Murzin A G., Brenner S. E., Hubbard T., Chothia C. (1995). SCOP: a structural classification of proteins 

database for the investigation of sequences and structures. J. Kol. Biol. 247, 536-540. [PDF] 

Recent changes are described in: Lo Conte L., Brenner S. E., Hubbard T.J.P., Chothia e Nurzin A. (2002). scop database 

in 2002: refinements accommodate structural genomics. Mci. Ac cid Aes. 3001), 26 4-2 67. [PD 

Andreeva A., Howorth D., Brenner S.E., Hubbard ia d. n. otio C. Nurzin AG. (2004). "s database in 2004: refinements 
ci :D226-D229. [PDE], and 
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图 4-4 SCOP 数据 库 主 页 
目前 SCOP 数 据 库 的 最 新 版 本 是 2009 年 6 月 发 布 的 1.75 版 ,在 该 版 本 中 共 含 有 38 221 个 已 


有 结构 的 蛋白 以 及 110 800 个 蛋白 结构 域 , 表 4-5 为 SCOP 数 据 库 最 新 版 本 中 详细 的 信息 统计 。 


表 4-5 SCOP 数 据 库 中 1.75 版 本 中 详细 信息 


HARM Class) 折叠 子 的 数目 ( Folds) 超 家 族 的 数目 ( Superfamilies ) “家 族 的 数目 ( Families ) 


全 a 螺旋 和 蛋白 284 507 871 
4: B TBA 174 354 742 
o SUE A B Dre 147 244 803 
o 螺旋 加 B HÆ 376 552 1055 
复合 结构 域 蛋 白 66 66 89 
REA 58 110 123 
小 蛋白 90 129 219 
总 和 1195 1962 3902 


在 SCOP 数 据 库 中 ,按照 从 简单 到 复杂 的 顺序 对 蛋白 进行 分 类 ,分 类 基于 四 个 层次 ,位 于 
分 类 层次 顶部 的 是 类 ( class ), 之 后 依次 为 家 族 (family ), 超 家 族 ( super family ).Dr/& ( fold )、 
蛋白 质 结构 域 ( protein domain ). 单 个 PDB 和 蛋白 结构 记录 。SCOP 数 据 库 可 以 通过 其 分 级 结构 
导航 进行 浏览 ,用 关键 字 、PDB 标 志 码 查询 ,或 通过 一 个 蛋白 质 序列 进行 同 源 搜索 。 在 各 个 
分 类 层次 中 ,家 族 用 来 描述 相近 的 蛋白 质 进 化 关系 ; 超 家 族 用 来 描述 远 源 的 进化 关系 ; 折 
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麦子 用 来 描述 空间 的 几何 关系 。 在 SCOP 数 据 库 中 结构 域 又 被 分 为 以 下 几 类 : 全 a 螺旋 ,全 
BHE, a MEA PHB, a 螺旋 加 B 折 双 以 及 复合 结构 域 。 除 此 之 外 , SCOP 提 供 一 个 非 
宛 余 的 ASTRAIL 序 列 库 , 这 个 库 通常 被 用 来 评估 各 种 序列 比 对 算法 ; 同时 SCOP 还 提供 一 个 
PDB-ISL 中 介 序 列 库 , 通 过 与 这 个 库 中 序列 的 两 两 比 对 ,可 找到 与 未 知 结构 序列 远 源 的 已 知 
结构 序列 。 除 了 显示 重 白质 结构 与 进化 的 信息 外 ,SCOP 数 据 库 通常 可 以 链接 到 PDB、SP3D、 
NCBI Entrez 等 数据 库 来 显示 原子 坐标 ,蛋白 序列 及 同 源 蛋白 信息 。SCOP 对 多 方 用 户 都 具有 
广泛 的 用 途 , 全 世界 不 同 地 区 具有 其 相应 的 镜像 站 点 。 探 究 与 所 研究 的 蛋白 质 相 近 的 结构 
空间 区 域 时 ,蛋白 质 的 分 类 层次 有 助 于 对 和 蛋白质 进 行 定 位 ,而 且 数 据 库 提供 的 交叉 链接 , 方 
便 对 预测 结果 进行 生物 学 解释 。 


(=) 蛋白 质 分 类 数据 库 CATH 


另 一 个 代表 性 蛋白 质 结 构 分 类 数据 库 是 由 伦敦 大 学 于 1993 年 开发 和 维护 的 CATH( 图 
4-5 )。 该 数据 库 的 名 称 CATH 分 别 是 数据 库 中 四 种 分 类 类 别 的 首 字 母 , 即 蛋白 的 种 类 ( class, 
C); 蛋白 中 二 级 结构 的 构架 ( architecture, A); 蛋白 的 拓扑 结构 (topology, T); 蛋白质 同 源 超 
家 族 ( homologous superfamily, H )。SCOP 注 重 从 蛋白质 进 化 角度 进行 分 类 ,而 CATH 偏 重 于 从 
结构 角度 对 蛋白 分 类 ,同时 数据 库 对 和 蛋白 进行 分 类 时 既 使 用 计算 机 程序 ,也 进行 人 工 检查 
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protein domain structures. Each protein has CATH domains to provide 16,118,154 
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Using CATH CATH Tools About CATH . 
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图 4-5 CATH 数 据 库 主页 
目前 CATH 数 据 库 最 新 版 本 是 2010 年 发 布 的 3.4 版 ,该 版 本 中 含有 152 920 个 蛋白 结构 域 ， 
40 个 二 级 结构 构架 ,1282 个 拓扑 结构 以 及 2549 个 同 源 蛋白 质 超 家 族 。 同 PDB 蛋白 结构 数据 
库 相 似 , 每 一 个 蛋白 都 会 有 一 个 不 重复 的 标号 ,在 CATH 数 据 库 中 表现 为 不 同 分 类 层次 都 有 
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CATH 号 ,并 且 不 同 水 平 的 CATH 号 的 标准 不 同 。 例 如 : 位 于 CATH 数 据 库 最 底层 分 类 的 和 蛋白 
种 类 类 别 , 它 的 CATH 号 的 范围 为 1~4, 每 一 类 之 间 的 间隔 量 为 1 ; 而 其 他 类 别 之 间 的 间隔 量 
为 10。 图 4-6 是 CATH 数 据 库 中 各 个 类 别 的 层次 划分 结构 。 与 SCOP 不 同 的 是 , CATH 把 蛋白 
质 分 为 4 类 , 即 全 a .全 B, a-B(a/B 型 和 a+B 型 ) 和 低 二 级 结构 类 。 低 二 级 结构 类 是 指 
二 级 结构 成 分 含量 很 低 的 蛋白 质 分 子 。CATH 数 据 库 的 第 二 个 层次 为 由 a 螺旋 和 B TBI 
成 的 超 二 级 结构 排列 方式 ,而 不 考虑 它们 之 间 的 连接 关系 。 形 象 地 说 ,就 是 蛋白 质 分 子 的 构 
架 , 如 同 建 筑 物 的 立柱 、 横 梁 等 主要 部 件 ,这 一 层次 的 分 类 主要 依靠 人 工 方法 。 第 三 个 层次 
为 拓扑 结构 , 即 二 级 结构 的 形状 和 二 级 结构 间 的 联系 。 第 四 个 层次 为 结构 的 同 源 性 , 它 是 先 
通过 序列 比较 然后 再 用 结构 比较 来 确定 的 。 除 了 以 上 提 到 的 四 种 分 类 外 , CATH 数 据 库 还 
有 另外 一 种 分 类 层次 为 序列 层次 ,在 这 一 层次 上 ,只 要 结构 域 中 的 序列 同 源 性 大 于 35% ,就 
被 认为 具有 高 度 的 结构 和 功能 的 相似 性 ,从 而 被 划分 为 在 同一 序列 家 族 ( sequence family ) 中 ; 
对 于 较 大 的 结构 域 , 则 至 少 要 有 60% 与 小 的 结构 域 相同 。 

主要 包括 : a, a AlB, B, “TIMP EH” 结构 ,“ 三 明治 ”结构 ,“ 肉 冻 卷 ” 结构 , 黄 素 
蛋白 ，B -内 酰胺 酶 结构 CATH 数 据 库 可 以 通过 英国 伦敦 大 学 的 生物 分 子 结构 和 模拟 实验 
室 的 网 络 服务 器 来 实现 用 户 数据 的 查询 和 分 析 。 在 CATH 首 页 右上 角 的 搜索 框 内 输入 待 
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查询 关键 字 , 点击“Quick Search" 查询 。CATH 给 用 户 提 供 了 满足 不 同 需求 的 数据 查询 方 
式 , 具 体 包 括 : 

(1 ) 搜 索 一 个 特定 结构 域 信 息 , 需 要 链接 至 “PDB code/Domain ID search”, FH P118 28 2& 
目 可 以 为 CATH domain ID, CATH Chain ID 或 者 PDB code, 输 入 搜索 条 目 关键 字 ,点 击 首页 右 
上 角 的 “Quick Search” 或 者 转 到 “Search CATH by ID/sequence/text” 页 面 ,利用 “Search by 
ID/Keywords” 模 块 进行 搜索 。 

(2 ) 搜 索 与 用 户 给 定 结构 或 功能 关键 字 相 关 的 信息 ,需要 链接 至 “Text Search” 实 现 文 
本 搜索 查询 。 用 户 输入 的 搜索 关键 字 可 以 是 描述 功能 起 源 的 “chaperone” 或 结构 相关 的 
“helix”。 将 搜索 关键 字 输 入 到 搜索 框 ,点击 首 页 右上 角 的 “Quick Search” 按 钮 进行 查询 或 
者 转 到 “Search CATH by ID/sequence/text” 页 面 ,利用 “Search by ID/Keywords” 模 块 进行 搜索 。 

(3 ) 搜 索 CATH 不 同 层次 结构 相关 的 信息 ,需要 链接 至 “Browse the CATH hierarchy” ,可 
查看 数据 库 数据 分 类 信息 。 也 可 通过 “Search CATH by ID/sequence/text” 页 面 ,点 击 “Browse” 
按钮 链接 至 “CATH hierarchy”( 图 4-7 )。 
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图 4-7 CATH 数 据 库 分 类 查询 主页 


其 次 , CATH 数 据 库 还 提供 了 分 析 模 块 , 可 以 提交 感 兴 趣 的 查询 条 目 , CATH 数 据 库 将 为 
该 查询 条 目 提供 相关 的 详细 的 结构 和 相应 的 功能 信息 。 

在 CATH 数 据 库 主页 上 ,选择 “Tools” ,进入 “CATHEDRAL Server” 分 析 服 务 器 , 允许 用 
户 根据 PDB ID 标识 或 CATH code 编 码 ,进行 相应 的 结构 和 功能 分 析 。 如 用 户 可 以 从 CATH 数 
据 库 中 获悉 给 定 蛋 白质 FtsA( pdbid: le4f ) 在 不 同 物种 中 的 进化 相关 性 以 及 与 之 密切 相关 
的 生物 学 功能 信息 。 首 先 ,检索 CATHEDRAL Server 服 务 器 获取 该 蛋白 质 上 所 有 的 结构 域 、 
结构 域 家 族 和 蛋白质 超 家 族 信 息 。 需 要 指出 的 是 ,对 于 一 个 序列 已 知 结构 未 知 的 蛋白 质 ， 
CATH 数 据 库 可 以 根据 其 结构 比较 算法 将 感 兴趣 的 蛋白 质 与 CATH 数 据 库 中 的 背景 蛋白 质 进 
行 相似 结构 搜索 ,最 终 确定 出 该 蛋白 质 的 结构 和 相应 的 结构 域 信 息 。 然 后 ,根据 蛋白 质 FtaA 
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所 有 结构 域 所 在 的 超 家 族 信息 ,用 户 可 以 获悉 该 蛋白 质 处 于 核酸 转移 酶 结构 域 家 族 ( CATH 
code: 3.30.420.40 ) 中 。 其 次 ,利用 CATH 和 Gene3D ,检索 CATH 超 家 族 3.30.420.40 所 包含 的 所 
有 结构 域 信 息 。 在 CATH 主 页 上 输入 结构 域 编码 ( 1e4 人 t 结 构 域 标识 / 链 标识 ), 检 索 获 取 相 应 
的 结构 域 信息 ; 在 H-level 同 源 超 家 族 层 , 可 以 找到 3.30.420.40, 点 击 进入 可 以 查看 该 同 源 超 
家 族 中 其 他 已 知 结构 域 的 结构 信息 ; 通过 结构 域 链接 ,可 以 获取 其 结构 信息 和 特定 的 分 子 细 
胞 的 功能 信息 等 。 有 具体 内 容 可 登录 到 数据 库 站 点 查看 ,这 里 不 作 歼 述 。 


(四 ) 其 他 常用 蛋白 质 结构 数据 库 


1. SWISS-MODEIL 数 据 库 SWISS-MODEI 数 据 库 收录 的 蛋白 质 结 构 都 是 使 用 SWISS- 
MODEL 同 源 建 模 ( homology-modelling ) 对 Swiss-Prot 集 白 序 列 数据 库 或 其 他 入 白质 序列 进行 
自动 同 源 建 模 所 得 到 的 结构 数据 ,该 数据 库 保 持 定期 更 新 。 建 立 该 数据 库 的 主要 目的 在 于 
提供 最 新 的 蛋白 质 3D 结 构 注释 信息 。 , 

至 2011 年 6 月 , SWISS-MODEIL 数 据 库 共 收 录 数 据 3 143 365 条 ,覆盖 了 UniProt 数 据 库 中 
2 278 333 条 不 同 的 蛋白 质 序 列 。SWISS-MODEI 数 据 库 允许 用 户 对 数据 库 中 的 模型 进行 质 
量 评价 ,允许 用 户 搜索 另外 一 种 可 变 模板 结构 ( alternative template structures ), 用户 还 可 以 使 
用 SWISS-MODEL 工 作 平 台 ( http: //swissmodel.expasy.org/workspace/ ) 构 建 蛋 白质 的 三 维 模型 。 
最 后 对 结构 模型 的 注释 信息 ,包括 功能 信息 ,可 通过 与 其 他 数据 库 进行 交叉 链接 得 到 ,通过 
这 些 链接 ,用 户 就 可 以 在 蛋白 质 序 列 数据 库 和 结构 数据 库 之 间 自 由 切换 。 

2. 中 国 蛋 白质 结构 数据 库 ” 中 国 重 白 质 结构 数据 库存 储 了 中 国人 提交 的 蛋白 质 的 PDB 
数据 ( http: //ifecenter.sgst.cn/enpdb/en/pdbHome.do )。 截 至 2009 年 7 月 ,该 数据 库 中 总 记录 数 
58706 和 条。 点击 主 页 (图 4-8 ) 中 左 侧 对 应 链接 可 进行 数据 浏览 及 下 载 。 


[11] 所 有 数据 库 afisaa 


基础 数据 资源 ”| 特色 数据 资源 在 绪 计 算 资 源 数据 资源 索引 | 关于 我 们 ”| 使 用 帮助 


中 国 蛋 白质 结构 数据 库 i^ 


* 简介 中 国 赴 白 质 结构 数据 库存 钮 了 蛋白 质 和 复杂 姐 件 的 结构 信息 。 
BENZ 我 们 主要 采集 的 是 中 国人 提交 的 PDB 数据 ,并 统计 了 中 国 作者 所 占 
的 百分比 ,以 衡量 中 国人 在 蛋白 质 等 生物 大 分 子 三 维 空间 结构 领域 











> 统计 信息 作出 的 贡献 (3D 分 子 列表 )。FTP 站 点 上 提供 了 按 中 国 作者 所 占 百 分 
' REFE 比 整理 的 PDB 数 据 打包 下 载 。 此 外 ， 通过 Firstglance 在 线 服务 条 
统 ， 用户 还 可 以 在 Jmol 中 浏览 直 白 质 的 三 锥 空间 结构 ， 
蛋白 质 的 分 子 结构 可 划分 为 四 级 ， 以 描述 其 不 同 的 方面 : 
> wwPDB * 一 级 结构 : 组 成 四 白质 多 肽 链 的 线性 氨基 融 序 列 。 
+A POE © 二 级 结构 ; 依靠 不 同 氨基 柄 之 间 的 C=0 和 N-H 基 团 间 的 气 键 形成 
DATS, EEH RENNE. 
* PDBe * 三 级 结构 ; 通过 多 个 二 级 结构 元 素 在 三 维 空间 的 排列 所 形成 的 一 
* PDBj 个 蛋白 质 分 子 的 三 维 结构 。 
visite * 四 级 结构 : 用 于 撕 述 由 不 同 多 肘 链 ( 亚 基 ) 间 相互 作用 形成 具有 





功能 的 蛋白 质 复合 物 分 子 。 


除了 这 些 结构 屋 次 ， 罩 白质 可 以 在 多 个 类 似 结 构 中 转换 ， 以 行 
使 其 生物 学 功能 。 对 于 功能 性 的 结构 变化 ,这 些 三 级 或 四 级 结构 通 党 用 化 学 构象 进行 拱 述 ， 而 相应 的 结构 转换 就 被 称 为 构象 变化 。 


一 级 结构 是 通过 共 价 键 ( 肘 键 ) 来 形成 ， 生 物体 中 ， 肽 键 的 形成 是 发 生 在 蛋白 质 生物 合成 的 抛 译 步 驰 。 AEM, REAR ESSE 
的 成 分 ,分 别 以 "N 末 端 "( 或 揽 基 端 ") RCR" C RER ) 来 表示 。 

定义 不 同类 型 的 二 级 结构 有 不 同 的 方法 ， 最 常用 的 方法 是 通过 主 链 原 子 之 间 的 氨 女 的 排列 方式 来 济 贱 f 的 。 而 在 蛋白 质 充 全 折 查 的 状态 下 ， 这 
些 氧 键 可 以 得 到 稳定 。 


三 级 结构 主要 是 通过 结构 "非特 异性 ' 相 卫 作 用 来 形成 。 然 而 ， 只 有 当 和 蛋白 质 结构 域 通过 "特异 性 "8 互 作 用 如 盐 桥 ， 氢 键 以 及 侧 链 间 的 堆积 作 
用 ) 固定 到 相应 位 置 ,所 形成 的 三 级 结构 才能 稳定 。 对 于 细胞 外 周 重 白 ， 二 硫 键 起 到 了 关键 的 稳定 作用 ; 而 对 于 细胞 内 蛋白 质 ， 则 很 少 出 现 二 硫 
键 ， 因 为 原生 质 中 是 还 原 环境 ,不 利于 二 硫 键 的 形成 。 


图 4-8 中 国有 蛋白 质 结构 数据 库 主页 
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该 数据 库 可 根据 蛋白 质 的 ID 对 数据 进行 浏览 ,包括 文献 名 、 作 者 名 及 相应 PubMed ID 等 
内 容 , 还 可 以 用 Jmol 查 看 该 蛋白 质 的 结构 。FTP 站 点 上 提供 了 按 中 国 作者 所 占 百 分 比 整理 的 
PDB 数 据 的 打包 下 载 。 

随 着 测序 技术 和 预测 方法 不 断 发 展 ,涌现 了 很 多 蛋白 质 结 构 相 关 的 数据 库 。 这 些 数 据 
库存 储 蛋 白质 序列 ,分 类 家族、 二 级 或 三 级 结构 、 膜 蛋白 \ 结 构 域 以 及 结构 修饰 等 信息 ( 表 


4-6 ). 
表 4-6 常用 蛋白 结构 数据 库 
数据 库 说 明 网 址 链接 
PDB 蛋白 质 三 维 结构 http: //www.resb.org/pdb 
REAID 蛋白 质 结构 修饰 数据 库 http: //pir.georgetown.edu/cgi-bin/resid 
中 国 蛋 白质 结构 数据 库 ”中 国 蛋 白质 结构 数据 库 http: //lifecenter.sgst.cn/enpdb/en/pdbHome.do 
BMRB 生物 磁 共 振 数据 库 http: //www.bmrb.wise.edu/ 
SWISS-3DIMAGE 三 维 结构 图 示 http: //us.expasy.org/sw3d/ 
DSSP 蛋白 质 二 级 结构 参数 http: Wwww.embi.kun.nl/gv/dsspy/ 
SWISS-MODEL 从 序列 模 建 结构 http//www.expasy.org/swissmod/SWISS-MODEL.html 
FSSP 已 知 空间 结构 的 蛋白 质 家 族 — http: //www.bioinfo.biocenter.helsinki.fi 
SCOP 蛋白 质 分 类 数据 库 http: /scop.mrc-lmb.cam.ac.uk/scopy/ 
CATH 蛋白 质 分 类 数据 库 http: //www.biochem.ucl.ac.uk/bsm/cath/ 
Pfam 蛋白 质 家 族 和 结构 域 http: //pfam.wustl.edu/ 
tmbase 跨 膜 蛋白 数据 库 ftp: //ulrec3.unil.ch( /pub/tmbase ) 
TrEMBL EMBL 的 翻译 数据 库 http: //kr.expasy.org/sprot/ 


PROSITE 和 蛋白质 功 能 位 点 http: //kr.expasy.org/prosite/ 
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蛋白 质 结 构 的 直接 获取 仍然 存在 瓶颈 ,大 量 序列 已 知 蛋 白质 的 三 维 结构 尚未 被 实验 方 
法 测定 出 来 。 在 这 种 情况 下 ,充分 利用 一 级 序列 信息 和 已 知 蛋 白质 的 空间 结构 信息 来 预测 
未 知 蛋 白质 的 空间 结构 ,已 经 成 为 研究 和 理解 蛋白 质 结构 -功能 关系 的 最 重要 手段 之 一 。 人 
们 要 求 对 和 蛋白质 结 构 分 类 不 仅 应 能 够 自动 化 处 理 , 而 且 应 同时 具有 更 加 准确 和 更 低 计算 量 
等 特点 。 蛋 白质 结构 自动 分 类 问题 可 以 被 纳入 模式 识别 的 范畴 ,通过 提取 分 析 蛋 白质 结构 
的 关键 特征 ,挖掘 蕴含 于 大 量 已 知 类 别 和 结构 蛋白 质 中 的 结构 和 功能 知识 来 构造 分 类 器 ,最 
终 实现 对 未 知 和 蛋白 质 结构 的 分 类 预测 。 蛋 白质 折 寿 分 类 识别 的 特征 提取 对 象 ,也 逐渐 从 序 
列 向 结构 过 渡 。 根 据 特征 的 来 源 ,当前 的 研究 方法 可 分 为 三 类 : 基于 序列 .基于 结构 ,以 及 两 
者 混合 的 特征 提取 方法 。 为 了 从 和 蛋白质 序 列 或 结构 中 获取 包含 更 多 的 结构 或 功能 信息 的 特 
征 , 人 们 通常 从 多 个 方面 去 提取 特征 ,然后 将 所 得 到 的 各 种 特征 组 合 在 一 起 进行 分 类 。 


一 、 蛋 白质 二 级 结构 预测 方法 及 软件 》》 


蛋白 质 二 级 结构 的 预测 通常 被 认为 是 蛋白 结构 预测 的 第 一 步 , 是 根据 它们 被 预测 的 局 
部 结构 ,对 蛋白 序列 中 的 氨基 酸 进行 分 类 。 二 级 结构 的 预测 方法 通常 分 为 多 序列 列 线 预 测 
和 单 序列 预测 的 方法 。 由 于 单 序列 预测 所 提供 的 信息 只 是 残 基 的 顺序 而 没有 其 空间 分 布 的 
信息 ,所 以 单 序列 预测 的 算法 预测 准确 率 并 不 高 。 多 序列 列 线 预测 和 神经 网 络 的 应 用 大 大 
提高 了 二 级 结构 预测 的 准确 度 ,通过 对 序列 比 对 的 预测 可 以 明确 的 提供 单一 位 点 在 三 维 结 
构 上 的 信息 。 通 常 二 级 结构 预测 的 准确 率 比 单 序列 预测 能 够 提高 10% ,很 多 方法 甚至 可 达 
到 70%~77% 的 准确 度 。 


(一 ) 二 级 结构 预测 方法 


1. AMBRE ”经验 参数 法 是 Chou 和 Fasman 提 出 的 ,是 一 种 基于 单个 氨基 酸 残 基 统 计 
的 经 验 预 测 方法 。 通 过 统计 分 析 , 获 得 每 个 残 基 出 现 于 特定 二 级 结构 构象 的 形象 性 因子 , 进 
而 利用 这 些 倾向 性 因子 预测 蛋白 质 的 二 级 结构 。 它 使 用 氨基 酸 物 理化 学 数据 中 派生 出 来 的 
规律 来 预测 二 级 结构 。 首 先 统计 出 20 种 氨基 酸 在 a 螺旋 、B 折合 和 无 规则 卷曲 中 出 现 频 率 
的 大 小 ,然后 计算 出 每 一 种 氨基 酸 在 这 几 种 构象 中 的 构象 参数 Px ,构象 参数 值 的 大 小 反映 了 
该 种 残 基 出 现在 某 种 构象 中 的 倾向 性 的 大 小 。Chou 和 Fasman 根 据 残 基 的 倾向 性 因子 提出 二 





175 


176 第 四 章 蛋白 质 结构 分 析 








AGATE eT 


CHAPTER 4 PROTEIN STRUCTURE ANALYSIS 


级 结构 预测 的 经 验 规则 ,根据 和 蛋白 序列 寻找 二 级 结构 的 成 核 位 点 和 终止 位 点 。 这 种 方法 可 
能 能 够 正确 反映 和 蛋白 质 二 级 结构 的 形成 过 程 ,但 预测 成 功率 并 不 高 , 仅 有 50% 左 右 。 

x GOR 算 法 “GOR 算 法 是 一 种 单 序列 预测 方法 , 因 其 作者 Garnier , Osguthorpefll Robson 
而 得 名 。 基 于 信息 论 和 贝 叶 斯 统计 学 方法 ,将 蛋白 质 序列 作为 一 连 串 的 信息 值 处 理 。 该 方 
法 不 仅 考虑 被 预测 位 置 本 身 氨 基 酸 残 基 的 种 类 对 该 位 置 构象 的 影响 ,也 考虑 相 邻 残 基 种 类 
对 该 位 置 构象 的 影响 。GOR 方 法 的 具体 做 法 是 : 将 序列 中 的 每 一 个 残 基 与 和 它 的 N 端 紧邻 
的 8 个 残 基 以 及 和 它 C 端 紧邻 的 8 个 残 基 一 起 考虑 ,通过 对 已 知 二 级 结构 的 蛋白 样本 的 分 析 ， 
计算 出 中 心 残 基 的 二 级 结构 分 别 为 螺旋 、 折 共和 转角 时 每 种 氨基 酸 出 现在 窗口 中 各 个 位 置 
的 频率 ,产生 一 个 17 x 20 的 得 分 矩阵。 然后 预测 序列 中 每 个 残 基 形成 这 些 二 级 结构 的 概率 。 
这 样 使 预测 的 成 功率 提高 到 65% 左 右 。 

3. 多 序列 列 线 预 测 ” 对 序列 进行 多 序列 比 对 ,并 利用 多 序列 比 对 的 信息 进行 结构 的 预 
测 。 调 查 者 可 找到 和 未 知 序列 相似 的 序列 家 族 ,然后 假设 序列 家 族 中 的 同 源 区 有 同样 的 二 
级 结构 ,预测 不 是 基于 一 个 序列 而 是 一 组 序列 中 的 所 有 序列 的 一 致 序列 。 

4. 神经 网 络 方法 “神经 网 络 算法 通常 是 由 三 层 相 同 的 神经 元 构成 的 层 状 网 络 ,使 用 反 
馈 式 学 习 规则 ,底层 为 输入 层 , 中 间 为 隐 含 层 , 顶层 是 输出 层 ,信号 在 相 邻 各 层 间 逐 层 传递 ， 
不 相 邻 的 各 层 间 无 联系 ,在 学 习 过 程 中 根据 输入 的 一 级 结构 和 二 级 结构 的 关系 的 信息 不 断 
调整 各 单元 之 间 的 权重 ,最 终 目标 是 找到 一 种 好 的 输入 与 输出 的 映像 ,并 对 未 知 二 级 结构 的 
蛋白 进行 预测 。 神 经 网 络 方法 的 优点 是 应 用 方便 ,获得 结果 较 快 较 好 ; 主要 缺点 是 没有 反 
映 蛋 白 的 物理 和 化 学 特性 ,而 且 利 用 大 量 的 可 调 参 数 ,使 结果 不 易 理解 。 许 多 预测 程序 如 
PHD 、PSIPRED 等 均 结合 利用 了 神经 网 络 的 计算 方法 。 

5. 基于 已 有 知识 的 预测 方法 ”预测 方法 包括 Lim 和 Cohen 两 种 方法 。Lim 方 法 是 一 种 物 
理化 学 的 方法 , 它 根据 氨基 酸 残 基 的 物理 化 学 性 质 ,包括 : KEE EKHE .带电 性 以 及 体积 
大 小 等 ,并 考虑 残 基 之 间 的 相互 作用 而 制订 出 一 套 预 测 规则 。 对 于 小 于 50 个 氨基 酸 残 基 的 
肽 链 ,Lim 方法 的 预测 准确 率 可 以 达到 73% , 另 一 种 是 Cohen 方 法 , 它 的 提出 当时 是 为 了 ay/B 
蛋白 的 预测 ,基本 原理 是 : 下 水 性 残 基 决定 了 二 级 结构 的 相对 位 置 , 螺 旋 亚 单元 或 扩展 单元 
是 结构 域 的 核心 , a 螺旋 和 B 折 著 组 成 了 结构 域 。 

6. 混合 方法 ”将 以 上 几 种 方法 选择 性 的 混合 使 用 ,并 调整 它们 之 间 使 用 的 权重 可 以 提 
高 预测 的 准确 率 ,目前 预测 准确 率 在 70% 以 上 的 都 是 混合 方法 ,其 中 , 同 源 性 比较 方法 ,神经 
网 络 方法 和 GOR 方法 应 用 最 为 广泛 。 

(=) 蛋 自 质 结构 域 识别 方法 


蛋白 质 结构 域 是 具有 特定 功能 的 基本 结构 单元 。 它 既是 蛋白 质 结 构 化 分 类 的 基础 ,又 
与 蛋白 质 进 化 密切 相关 。 它 对 于 人 们 认识 蛋白 质 的 结构 ,功能 和 进化 有 着 重要 的 意义 ,因此 ， 
蛋白 质 结构 域 的 研究 已 成 为 生物 信息 学 中 的 一 个 重要 问题 。 通 过 专家 手工 来 确定 重 白 质 结 
构 域 是 非常 可 靠 的。 然而 处 在 数据 量 急 速 增 长 的 后 基因 组 时 代 , 人 类 专家 的 处 理 能 力 已 无 
法 满足 数据 分 析 的 需要 ,这 时 自动 化 的 预测 方法 则 显得 尤为 重要 。 自 动 化 的 结构 域 预测 方 
法 可 分 为 基于 模板 的 方法 和 从 头 预测 的 方法 。 尽管 基于 模板 的 方法 已 经 取得 了 较 大 的 成 功 ， 
但 它 在 缺乏 相应 的 模板 信息 时 就 不 再 有 效 。 仅 从 序列 信息 来 预测 结构 域 的 方法 (从 头 预测 ) 
成 为 结构 生物 学 和 序列 分 析 中 的 一 个 重要 的 问题 。 目 前 许多 机 顺 学 习 方法 ,如 隐 马 尔 可 夫 
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模型 神经 网 络 .支持 向 量 机 等 已 经 被 应 用 于 蛋白 质 结构 域 边界 的 从 头 预测 中 。 

1. 递归 的 神经 网 络 ”可 使 用 的 模型 有 基于 长 短 记忆 ( long short-term memory, LSTM ) 3% 
归 网 络 的 蛋白 质 结构 域 边 界 预 测 模型 一 一 IPSP-LSTM。 该 模型 通过 选择 性 记忆 的 递归 方法 
对 和 蛋白质 序列 中 的 长 程 相关 性 进行 建 模 。 该 模型 在 整体 结构 域 预测 和 多 域 蛋 白质 链 的 预测 
中 的 效果 较 好 。 在 双 域 的 预测 中 的 敏感 性 和 特异 性 更 加 平衡 。 

2. 支持 向 量 机 ”支持 问 量 机 的 基本 原理 是 : 首先 通过 将 种 子 序列 与 数据 库 中 已 知 的 序 
列 相 比 较 , 生 成 多 序列 比 对 结果 ,对 比 对 结果 进行 特征 提取 ,这 些 特 征 能 够 直接 或 间接 的 反 
映 和 蛋白 质 的 结构 属性 及 结构 域 信息 ,再 运用 信息 论 的 方法 将 特征 值 信息 最 大 化 。 使 用 支持 
问 量 机 学 习 系统 对 提取 的 特征 值 进行 分 类 ,实现 了 从 多 变量 到 单 分 类 结果 的 非 线 性 映射 。 


(三 ) 二 级 结构 预测 相关 软件 


目前 较为 常用 的 二 级 结构 预测 软件 PSIPRED , Jpred, PREDATOR 、PSA 和 SOMPA 等 都 有 
在 线 服务 器 ; 进入 这 些 软件 的 主页 ,输入 Fasta 格 式 的 目的 蛋白 序列 ,在 网 页 上 直接 选取 适合 
的 重 白质 结构 预测 算法 ,点 submit 运 行 即 可 。 

l. Jpred Jpred 是 一 种 蛋白 质 二 级 结构 预测 网 络 服务 器 ,由 Barton Group 创建 于 1998 
年 。 通 过 提交 单一 蛋白 质 序列 或 多 重 蛋 白质 序列 并 运行 , Jpred 就 可 以 预测 出 蛋白 质 序列 
的 二 级 结构 : a -螺旋 、B - 折 炙 或 无 规则 卷曲 。Jpred 应 用 了 Jnet 神经 网 络 算法 ,准确 率 达 
到 了 76.4%。 其 基本 原理 是 : Jpredik F di ii 3E DSC , PHD, NNSSP, PREDATOR , ZPREDfII 
MULPRED 六 种 预测 方法 进行 预测 ,它们 都 采用 了 多 重 序列 的 进化 信息 。NNSSP 依 据 最 大 
同 源 性 , PDH 采 用 神经 网 络 , DSC 根 据 线性 识别 , MULPRED 联合 不 同 的 单一 序列 预测 方法 ， 
PREDATOR 考虑 氧 键 倾向 性 , ZPRED 加 权 预 测 。 最 后 将 六 个 结果 总 结 为 一 个 简单 的 文件 
格式 。 

2. SOPMA ”位 于 法 国 里 昂 的 CNRS( centre national de la recherche scientifique ) ( http: // 
pbil.ibep.fr/ ) 使 用 独特 的 方法 进行 蛋白 质 二 级 结构 预测 。 它 是 使 用 5 种 相互 独立 的 方法 进行 
预测 ,并 将 结果 汇集 整理 成 一 个 “一 致 预测 结果 ”。 这 5 种 方法 包括 : Garnier-Gibrat-Robson 
(GOR ) 方 法 、Levin 同 源 预 测 方法 、 双 重 预 测 方法 、PHD 方 法 和 CNRS 自 己 的 SOPMA 方 法 。 简 
单 地 说 , SOPMA 这 种 自 优化 的 预测 方法 建立 了 已 知 二 级 结构 序列 的 次 级 数据 库 , 库 中 的 每 
个 蛋白 质 都 经 过 基于 相似 性 的 二 级 结构 预测 。 然 后 用 次 级 库 中 得 到 的 信息 去 对 查询 序列 进 
行 二 级 结构 预测 。 

3. nnPredict nnpredict( http: //www.empharm.ucsf.edu/-nomi/nnpredict.html ) 算法 使 用 了 
一 个 双 层 ,前 馈 神 经 网 络 去 给 每 个 氨基 酸 分 配 预测 的 类 型 。 在 预测 时 ,服务 器 使 用 FASTA 格 
式 的 文件 ,其 中 有 单字 符 或 三 字符 的 序列 以 及 蛋白 质 的 折 秋 类 ( a 、B 或 a/B )。 残 基 被 分 
为 几 类 ,如 a 螺旋 (H)、B 链 (EE 减 其 他 ( - ), 若 对 给 定 残 基 未 给 出 预测 , 则 会 标 上 问号 ( ? ), 
这 说 明 无 法 做 出 可 信 的 分 配 。 者 没有 关于 折 苹 类 的 信息 ,预测 也 能 在 不 定 折 芭 类 的 情况 下 
进行 ,而 且 这 是 缺 省 的 工作 方式 。 据 报道 ,对 于 最 佳 实例 的 预测 , nnpredict 的 准确 率 超过 了 
65%, 

4. PredictProtein PredictProtein( http: //cubic.bioc.columbia.edu/predictprotein/ ) 在 预测 中 
应 用 了 略为 不 同 的 方法 。 首 先 ,蛋白 质 序列 被 作为 查询 序列 在 SWISS-PROT 库 中 搜索 相似 
的 序列 。 当 相似 的 序列 被 找到 后 ,一 个 名 为 MaxHom 的 算法 被 用 来 进行 一 次 基于 特征 简 图 的 
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多 序列 比 对 。MaxHom 用 和 迭代 的 方法 来 构造 比 对 : 当 第 一 次 搜索 SWISS-PROT 后 ,所 有 找到 | 
的 序列 与 查询 序列 进行 比 对 ,并 构造 出 一 个 比 对 后 的 特征 简 图 。 然 后 ,这 个 简 图 又 被 用 来 在 
SWISS-PROT 中 搜索 新 的 相似 序列 。 由 MaxHom 产 生 的 多 序列 比 对 随后 被 置 人 一 个 神经 网 
络 ,用 PHD 的 方法 进行 预测 。 

[ 例 4-2 ] 在 SOPMA 中 预测 人 类 驱动 蛋白 的 二 级 结构 

( 1) 进入 SOPMA 主 页 ; 

(http: //npsa-pbil.ibcp.fr/cgi—bin/npsa_automat.pl ? page=/NPSA/npsa_sopma.html ); 

( 2) 如 图 4-9 所 示 , 在 “Paste a protein sequence below” 下 的 空白 处 提交 人 类 驱动 蛋白 序 
列 ,设置 拟定 的 参数 ,点 击 “SUBMIT” 按钮 进行 分 析 ; 


SOPMA SECONDARY STRUCTURE PREDICTION METHOD 


[Abstract] [NPS@ help] [Original server] 
Sequence name (optional) : 
Paste a protein sequence below : hclp 


Output width : 70 


[ SUBMIT || CLEAR | 





Parameters 
Number of conformational states: 4 (Helix, Sheet, Turn, Coil) ~ 
Similarity threshold : 8 


Window width : 17 


图 4-9 SOPMA 首 页 


(3 ) 结 果 如 图 4-10 ; SOPMA 方 法 预测 的 二 级 结构 主要 含有 a -螺旋 (h ), (37.4496; HE 
伸 链 (e ), 占 14.26%; Bre (t), 4.16%; 无 轨 卷 曲 (c ), 占 44.13%。 

5. 蛋白 质 二 级 结构 其 他 预测 软件 目前 ,还 有 很 多 蛋白 质 二 级 结构 在 线 预测 软件 ,如 
APSSP、CFSSP、PROF 和 PSIPRED 等 (424-7 )。 并 非 所 有 的 方法 都 是 默认 执行 的 ,有 些 方 
法 ,如 跨 膜 螺旋 的 预测 ,在 自动 运行 时 使 用 特殊 的 保守 起 始 值 ,而 在 有 明确 要 求 时 使 用 不 同 
的 起 始 值 。 以 下 方法 可 选择 使 用 : MaxHom、BLASTP、 PSI-BLAST, SEG、PHDsec、PHDacc、 
PHDhtm, PROFsec , PROFacc , COILS, CYSPRED ASP, PROSITE, ProDom , CHOP, NORSp, 
PROFtmb , PROFcon08 , LOCkey , LOChom, PredictNLS 和 LOCnet。 使 用 者 可 以 明确 要 求 使 用 
TOPITS+ 或 用 EvalSec 评 估 二 级 结构 预测 方法 的 准确 率 。 注 意 , 某 些 方 法 的 使 用 有 以 下 优势 : 
加 快 执行 的 速度 和 简化 结果 。 然 而 请 记 住 ,数据 库 搜索 及 其 结果 是 速度 和 结果 字 节 数 的 限 
制 因 素 。 
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SOPMA result for : kinesin 


Abstract Geourjon, C. & Deléage, G., SOPMA: Significant improvement in protein secondary structure prediction by consensus prediction from 
multiple alignments., Cabios (1995) 11, 681-684 


View SOPMA in: [AnTheProt (PC) , Download...) [HELP] 


10 20 30 40 50 60 70 
l | | | | | | 
MASQFCLPESPCLSPLKPLKPHFGDIQEGIYAAIQRSDERIHLAVVTEINREHYWVTVEWVEKAVKKGKK 
hhhhecccccceccecccccccchhhhtteeeeeec-ttcchheeeehhctt--eeeeeehhtt-cttcc 
IDLETILLLNPALDSAEHPMPPLPLSPLALAPSSAIRDQRTVTKWVAKIPQKRQTASGDSLDVRVPSKPC 
eehhheeecctteccccccccecccceccecececcecceccecccceccceeeeccccececceoccecc 
LWKQKKSPCLVEIQKLQEQREKRRRLQQEIRARRALDVNTRNPNYEINHMIEETRRHLDSSKISVLEPPQ 
eeeeehhhhhhhhhhhhhhhhhhhhhhhhhhhhhhe «see shhhhhhhhhhhheoeecccsececcee 
EHRICVCVRERPLRQRETTLKDLDI ITFCFDHAFDDKASNEL' 
ccceeeeeeccccccccoccecceeeeecttceeeeeccccchhhhhhhhtt:eeeeeee--c- -chhhh 
QFTAQPLVESIFREKGMATCF AYGQTRSGKTYTVGGDF SG TAQDCSKG IY ALVAQDVFLLLRNSTYEKLDL 
hhhochhhhhhhtt --eeeeeeccccccceeeeeccccccccccett-ehhhhhhhhhhhh- <coccech 
EVYGTFFEIYGGKVYDLLNWKKKLQVLEDGNQQIQVVGLQEKEVCCVEEVLNLVE IGNSCRISRQTS¥HA 
eeeeehhhhhhhhhhhhhht t - ceeeehttcc-eeeeecchhhh--hhhhhhhhhtt scccecccecere 
HSSRSHAVFQTILKSGG IMHGKF SLVDLAGNERG ADTTK ASRKRQLEG AE INK SLLALKECILALGQRKP 
ccccchheeeeeehccccccceeseeeecccecececececcceccc chhhhhhhhhhhhhhhhhhh: coe 
HIPFRASKLALVLRDSFIGQNSSTCMIATISPGMISCENTLNTLRYANRVKKLHVDVRPYHRGHYP IGHE 
ceseccchhhhhhhhhecccccceeeeeeccttccchhhhhhhhhhhhhhhhhee rcec eccocecre 
APRMLKSHIGNSEMSLQRDEF IK IPTVQSEEQKE IEEVETLPTLLGKDTTISGKGSSQWLENIQERAGGV 
-hhhhhhhhh-cccccccccceeccccchhhhhhhhhhhhhhhhhhhhhhhh:- - hhhihhhhhhhihihhh 
HHDIDFCIARSLSILEQK IDALTEIQKKLKLLLADLHVK SKVE 
-cchhhhhhhhhhnhhhhhhhhhhhhhhhhhhhhhhhh: -cee 


Sequence length : 613 


SOPMA : 
Alpha helix (Hh) : 252 is 37.44% 
349 helix (Gg) : 0 is 0.00% 
Pi helix KIA è 0 is 0.00% 
Beta bridge (Bb) : 0 is 0.00% 
Extended strand (fe) : 96 is 14. 26% 
Beta turn (Tt) : 28 is 4.16% 
Bend region Gs) : Ois 0.00% 
Random coil Co) : 297 is 44.13% 
Ambigous states (?) : 0 is 0.00% 
Other states H 0 is 0.00% 





ien Be abre | 





图 4-10 SOPMA 预 测 结果 


表 4-7 常用 二 级 结构 预测 软件 





软件 网 址 | See et | cus i 
APSSP http: //imtech.res.in/raghava/apssp/ 基于 最 近邻 和 神经 网 络 方法 ,根据 氨基 酸 序列 预测 
蛋白 质 的 二 级 结构 
CFSSP http: //www.biogem.org/tool/chou-fasman/ Chou & Fasman 算 法 ,根据 氨基 酸 序列 预测 蛋白 质 


二 级 结构 
PROF http: //www.aber.ac.uk/-phiwww/prof/ 根据 氨基 酸 多 重 序列 比 对 预测 蛋白 质 二 级 结构 
PSIPRED http: //bioinf.cs.ucl.ac.uk/psipred/ TEQUE HAE P eS EA HAM AR A profiled s HJ 


识别 工具 
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二 、 蛋 白质 三 级 结构 的 预测 方法 及 软件 》》 


(一 ) 蛋白 质 三 级 结构 的 预测 方法 


目前 ,蛋白 质 三 级 结构 的 预测 方法 主要 有 三 类 : 同 源 模 建 法 . 折 生 识别 法 和 从 头 预测 。 

l. 同 源 模 建 法 ” 同 源 模 建 法 也 称 为 比较 模 建 法 ( comparative modeling )。 同 源 模 建 法 的 
基础 是 同 源 蛋 白质 空间 结构 比 蛋白 质 序列 保守 性 更 强 的 理论 ,基本 假设 是 蛋白 质 结构 具有 
某 种 规则 性 ,其 可 能 的 空间 结构 的 基本 形态 种 类 有 限 , 各 个 形态 由 各 物种 特定 的 氨基 酸 序列 
所 决定 。 在 蛋白质 序 列 的 一 致 性 大 于 30% 的 前 提 下 ,一 个 未 知 结构 的 和 蛋白质 可 以 利用 一 个 
或 一 个 以 上 与 其 相关 的 蛋白 质 结 构 来 建立 其 空间 结构 。 一 般 来 说 ,目标 蛋白 质 序 列 和 模板 
序列 的 相似 性 越 高 ,所 模 建 出 来 的 结构 正确 性 .可 信和 度 也 就 越 高 。 

2. 折合 识别 法 ”有 许多 和 蛋白质 氨 基 酸 序列 大 不 相同 ,但 是 却 拥 有 极为 相似 的 三 维 结 
构 , 在 这 种 情况 下 同 源 模 建 法 因为 序列 一 致 性 太 低 而 失效 ,因此 ,一 些 科学 家 还 提出 了 一 种 
预测 蛋白 质 三 级 结构 的 新 策略 ,这 类 方法 被 称 为 Threading 方法 或 折 双 类 型 识别 方法 ,这 一 
方法 的 基本 思想 是 假定 被 预测 蛋白 质 的 折合 类 型 与 某 一 已 知 结构 的 蛋白 质 的 折 革 类 型 相 
同 ,这 样 ,蛋白 质 结构 预测 的 问题 就 转变 为 与 已 知 空 间 结构 的 蛋白 质 比 对 ,从 而 大 大 减少 了 
预测 蛋白 质 结 构 的 难度 ,而 且 不 需要 预测 二 级 结构 , 即 直 接 预 测 三 级 结构 ,从 而 可 以 避免 二 
级 结构 预测 不 准确 的 限制 ,是 一 种 有 潜力 的 预测 方法 。 

折 芭 识别 法 的 实现 过 程 是 总 结 出 已 知 的 独立 蛋白 质 结构 模式 作为 可 与 未 知 结构 进行 匹 
配 的 模板 ,然后 通过 学 习 现 有 的 数据 库 总 结 出 评价 序列 与 结构 匹配 优 和 八 的 平均 势 函 数 作为 
判别 标准 ,选择 出 未 知 序列 与 已 知 特定 结构 的 最 佳 匹配 。 给 定 一 个 结构 未 知 的 查寻 序列 及 
一 些 蛋 白质 的 结构 (或 结构 的 片段 ), 计 算 这 个 序列 与 其 中 某 个 结构 的 折合 匹 配 关 系 ,然后 将 
氨基 酸 序列 和 三 维 结构 在 空间 中 的 位 置 做 排列 ,再 运用 适当 的 计 分 方式 ,计算 匹配 得 分 , 根 
据 得 分 的 高 低 , 对 序列 与 折 钱 的 立体 结构 进行 评估 。 

3. 从 头 预 测 ” 在 既 没 有 已 知 结构 的 同 源 蛋 白质 、 也 没有 已 知 结构 的 远程 同 源 重 白质 的 
情况 下 ,上述 两 种 蛋白 质 结构 预测 的 方法 都 不 能 用 ,这 时 只 能 采用 从 头 预测 方法 ( Abinitio ), 
即 直接 根据 序列 本 身 来 预测 其 结构 。 从 头 预 测 方法 一 般 由 下 列 3 个 部 分 组 成 : 由 一 种 蛋白 质 
的 几何 表示 方法 : 由 于 表示 和 处 理 所 有 原子 和 浴 剂 环境 的 计算 开销 非常 大 ,因此 需要 对 蛋白 
质 和 溶剂 的 表示 形式 作 近 似 处 理 , 例 如 ,使 用 一 个 或 少数 几 个 原子 代表 一 个 氨基 酸 残 基 。 
一 种 能 量 函 数 及 其 参数 ,或 者 一 个 合理 的 构象 得 分 限 数 ,以 便 计算 各 种 构象 的 能 量 。 通 过 
对 已 知 结构 的 蛋白 质 进行 统计 分 析 , 可 以 确定 蛋白 质 构 象 能 量 函 数 中 的 各 个 参数 或 者 得 分 
函数 。@ 一 种 构象 空间 搜索 技术 : 必须 选择 一 个 优化 方法 ,以 便 对 构象 空间 进行 快速 搜索 ， 
迅速 找到 与 某 一 全 局 最 小 能 量 相对 应 的 构象 。 其 中 ,构象 空间 搜索 和 能 量 函 数 的 建立 是 从 
头 预 测 方法 的 关键 。 


(=) 蛋白 质 三 级 结构 预测 的 软件 


1. SWISS-MODEL( http: //www.expasy.ch/swissmod/SWISS-MODEL.html ) 是 自动 的 蛋白 
质 同 源 模 建 服务 器 。 程 序 先 把 提交 的 序列 在 ExPdb 晶 体 图 像 数 据 库 中 搜索 相似 性 足够 高 的 
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同 源 序 列 ,建立 最 初 的 原子 模型 ,再 对 这 个 模型 进行 优化 产生 预测 的 结构 模型 。 

由 于 比较 建 模 程序 可 以 具有 不 同 的 复杂 性 ,该 服务 主要 有 以 下 三 种 方式 : 

(1 ) 简 捷 模 式 ( First Approach mode ); 这 种 模式 提供 一 个 简捷 的 用 户 界 面 : 用 户 只 需要 
输入 一 条 氨基 酸 序列 ,服务 器 就 会 自动 选择 合适 的 模板 。 或 者 ,用 户 也 可 以 自己 指定 模板 (最 
多 5 条 ), 这些 模 板 可 以 来 自 ExPDB 模 板 数 据 库 ,也 可 以 是 用 户 选择 的 含 坐标 参数 的 模板 文 
件 。 如 果 一 条 模板 与 提交 的 目标 序列 相似 度 大 于 25% , 建 模 程序 就 会 自动 开始 运行 。 但 是 ， 
模板 的 可 靠 性 会 随 着 模板 与 目标 序列 之 间 相 似 度 的 降低 而 降低 ,如 果 相 似 度 不 到 50% 往 往 
就 需要 用 手工 来 调整 序列 比 对 。 这 种 模式 只 能 进行 大 于 25 个 残 基 的 单 链 蛋 白 三 维 结构 预测 。 

(2 ) 比 对 界面 (Alignment Interface ): 这 种 模式 要 求 用 户 提供 两 条 已 经 比 对 好 的 序列 ,并 
指定 哪 一 条 是 目标 序列 , 哪 一 条 是 模板 序列 (模板 序列 应 该 对 应 于 ExPDB 模 板 数据 库 中 一 条 
已 经 知道 其 空间 结构 的 蛋白 序列 )。 服 务 器 会 依据 用 户 提供 的 信息 进行 建 模 预测 。 

(3) 工程 模式 ( Project mode ): 手工 操作 建 模 过 程 : 该 模式 需要 用 户 首先 构建 一 个 
DeepView 工 程 文件 ,这 个 工程 文件 包括 模板 的 结构 信息 和 目标 序列 与 模板 序列 间 的 比 对 信 
息 。 这 种 模式 可 以 让 用 户 控制 许多 参数 ,例如 ,模板 的 选择 , 比 对 中 的 缺口 位 置 等 。 此 外 ,这 
个 模式 也 可 以 用 于 “first approach mode 简 捷 模式 ”输出 结果 的 进一步 加 工 完 善 。 

此 外 , SWISS-MODEL 还 具有 其 他 两 种 内 容 上 的 模式 : DOligomer modeling FREA € 
Bi): 对 于 具有 四 级 结构 的 目标 蛋白 , SWISS-MODEL 提 供 多 聚 模板 的 模式 ,用 于 多 单 体 的 蛋 
白质 建 模 。 这 一 模式 弥补 了 简捷 模式 中 只 能 提交 单个 目标 序列 ,不 能 同时 预测 两 条 及 以 上 
目标 序列 的 蛋白 三 维 结构 的 不 足 ; GPCR model G 蛋 白 偶 联 受 体 模式 ): 是 专门 对 7 次 跨 膜 G 
蛋白 偶 联 受 体 的 结构 预测 。 

[ 例 4-3 ] HHSWISS-MODEL 自动 方式 以 人 类 驱动 蛋白 序列 为 例 说 明 三 级 结构 建 模 过 程 

第 一 步 : 进入 SWISS-MODEL 三 级 结构 预测 服务 器 主页 (图 4-11 ); . 


E 
nog rmm A SWISS-MODEL 








Swiss Institute of 
Bioinformatics 








SWISS-MODEL is a fully automated protein SWISS-MODEL Team 

Structure homology-modeling server, accessible Torsten Schwede: Project Leader 

myWorkspace via the ExPASy web server, or from the program Florian Kiefer. SWISS-MODEL Repository 

Automated Made DeepView (Swiss Pdb-Viewer). The purpose ofthis Lorenza Bordoli: Method Development and user 
server is to make Protein Modelling accessible to support 

Alignment Mode all biochemists and molecular biologists Konstantin Arnold: SWISS-MODEL Workspace 
worldwide. 

Project Mode 


What's new? References: 
When you publish or report results using SWISS- 
* NewBeta SWISS-MODEL pipeline for MODEL, please cite the relevant publications: 


Template Identification automated model building with oligomers 

. and ligands is now available for testing. e Arnold K., Bordoli L., Kopp J., and Schwede 

Domain Annotation e Find more news on SWISS-MODEL Blog T. (2006). The SWISS-MODEL Workspace: A 
e ... faster news on Twitter web-based environment for protein 

SHU ASSBSSITIBDE + Follow us on Facebook structure homology modelling. 

Template Library Bioinformatics, 22,195-201. 


* Kiefer F, Arnold K, Künzli M, Bordoli L, 


Schwede T (2009). The SWISS-MODEL 
Repository and associated resources. 


Nucleic Acids Research. 37, D387-D392. 
Search by Sequence e Peitsch, M. C. (1995) Protein modeling by 
Search by AC E-mail BiofTechnology 13: 658-660. 


Search by full text 


图 4-11 SWISS MODEL 预测 服务 器 主页 
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第 二 步 : 选择 “Automated Mode” 一 粘 人 从 NCBI 上 搜索 到 的 人 类 驱动 蛋白 kinesin 蛋 白质 
序列 ; 在 这 里 可 以 填写 E-mail 地 址 ,将 结果 发 送 至 电子 邮箱 ,也 可 以 在 新 的 网 页 上 直接 展示 
结果 ; 

第 三 步 : 点 击 “Submit Modeling Request” 即 可 ; 

第 四 步 : 直接 在 页 面 上 查看 蛋白 质 kinesin 的 三 级 结构 信息 (图 4-12 ); 





Model information: Quaternary structure information: {details|» 

Modelled residue range: 186 to 540 Template (2gry)y MONOMER 

Based on template: [2aryA]» (2.35 A) Model: MONOMER 

Sequence Identity [%]: 70.7 

Evalue: 1.73e-140 Ligand information: [details]w 
Ligands in the template: ADP: 1, MG: 1, UNX 3 

Quality information: [details] Ligands in the model: none 

QMEAN Z-Score: -2.75 1 





logs: [Templates]» [Alignment] [Modelling]» 
display model: as [pdb]^ - as [DeepView project]» - in [AstexViewer]w 
download model: as [pdb|+ - as [Deepwew project] - as [text] 


Model information: Quaternary structure [details] 
Modelled residue range: — 151 to 544 information: E 
Based on template: [1cz7D]» Q.90 A) Template (1cz7): DIMER 
avs Sequence Identity [%]: 25.87 Model built: SINGLE CHAIN 
Evalue: 0.00e-1 
4 x Ligand information: [details] 
a Quality information: [details]» Ligands in the template: ADP: 1, 
QMEAN Z-Score: -6.22 1 MG: 1. 


Ligands in the model: none 
Warning: Low QMEAN Z-scores! Only membrane 
proteins or models of poor quality are expected to 
reach such low scores 
logs: [Templates]v [Alignment] [Modelling] 
display model: as [pdb]^ - as [DeepView project] - in [Astex viewer] 
download model: as [pdb]ż - as [Deepview project]s - as [text] 


图 4-12 借助 SWISSA 一 MODEL 查 找 与 kinesin 三 级 结构 相似 模型 


第 五 步 : 结果 分 析 发 现 系统 自动 选用 的 是 其 中 相似 性 最 高 的 两 个 模型 ,分 别 是 2gry 和 
1cz7, 从 图 4-12 中 可 看 出 其 三 级 结构 含有 a -螺旋 和 平行 B - 折 著 链 。 从 模板 信息 里 可 以 得 
到 所 模拟 目标 蛋白 的 残 基 范 围 .所 用 模板 .序列 相似 性 及 E 值 。 另 外 ,可 通过 展示 模型 获得 模 
板 的 具体 信息 或 者 通过 下 载 模板 保存 其 三 级 结构 的 PDB 格式 。 

第 六 步 : 使 用 PHYRE 工具 ( http: //www.sbg.bio.ic.ac.uk/~phyre/index.cgi ) 查看 蛋白 质 二 
级 结构 的 比 对 细节 、` 同 源 性 结构 等 信息 (图 4-13 ); 

第 七 步 : 使 用 CBS( http: //www.cbs.dtu.dk/index.shtml ) 中 的 FeatureMap3D 直 接 对 和 蛋白质 
序列 做 基于 PDB 数据 库 的 蛋白 质 三 维 结构 图 (图 4-14 ); 

第 八 步 : 预测 结果 可 以 使 用 显示 生物 大 分 子 三 维 结构 图 像 的 软件 ,如 RasMol、PyMol、 
Cn3D .SWISS-pdbVeiwer 等 显示 (图 4-15 )。 

2. PROCARB( http: //www.procarb.org/ ) 是 一 款 可 预测 糖 蛋 白 的 软件 ,其 包含 的 同 源 
建 模 模块 是 基于 同 源 建 模 的 方法 预测 糖 蛋白 的 三 维 结构 。 预 测 的 过 程 是 : 首先 ,由 于 糖 蛋 
白 分 为 N 连 接 糖 蛋 白 和 0 连接 糖 蛋白 ,因此 ,分 别 在 Swissprot 数 据 库 中 查找 N 连 接 糖 蛋 白 ,在 
0-glycbase 数 据 库 中 查找 0 连接 糖 和 蛋白。 其 次 ,在 搜索 到 的 糖 蛋白 中 ,选择 与 蛋白 家 族 的 序 
列 相似 性 在 30% 以 上 的 家 族 中 的 一 个 蛋白 作为 模型 。 在 被 选择 的 糖 蛋白 序列 中 ,要 求 至 少 
有 一 个 糖 基 化 位 点 是 在 Swissprot 中 存在 和 注释 的 。 然 后 ,将 序列 输入 到 3D-JIGSAW(http: // 
bmm.cancerresearchuk.org/~3djigsaw/ ) 服务 器 中 对 和 蛋白 质 进行 建 模 。 最 后 ,使 用 CHARMm( http: // 
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Secondary Structure Prediction 
Index 10 20 30. 40. 50. 60 70 


Query Sequence M QFCL“E- CL LK LK HF DIQE |I Y IQR DKRIHL VV EINRENYWV VEWVEK VKK -KKI DLE 
psipred eee 
















jnet iii iii 
sspro 
Consensus 
Cons_prob = 6544566665677 76600077775 56 
Disorder Prediction 
Index 10 20 30 40 50 60 70 
Disopred d sooo oogisooooogloooooooooo 0000000000 0000000000 sisIsoo 00000 0000000000 0000 
Diso_prob SEERE IESU 22.4 33 324 13214 1212444 32244444 FBS 4G 00110 0221341130 og 
Prosite 
FINALLY - a new fold library has been installed! Let me know if you have any problems 
To predict functional residues and GO classification, try ConFunc 
Fold Recognition 
View : Estimated | Fold/PDB d f (beta- 
Alignments SCOP Code BATCH E-value jescriptor Superfamily Family test) 
PDBTitle: 
the crystal 
structure of 
the minimal 
functional 
ug j PDB Chain: A: PDB domain of 
lil i 1 9e-32 Wa header:structural Molecule:kinesin- the2 nía 
HER 1 protein like protein kif2c, microtubule 
unc destabilizer 
& A kif2c 
comniexed 


图 4-13 有 蛋白 质 二 级 结构 的 比 对 细节 . 同 源 性 结构 


FeatureMap3D - query result 
Please cite: 


FeatureMap3D — a tool to map protein features and sequence conservation onto homologous structures in the PDB 
Rasmus Wernersson, Kristoffer Rapacki, Hans-Henrik Stzrfeldt, Peter Fad Sackett, and Anne Melgaard 


Hucl. Acids Res. 2006 34; W84-¥58 





A guide of how to read the result can be found here: c 





Result for Seql.1.1 (673 aa) 


Download: GetStruct report 











图 4-14 预测 的 kinesin 三 维 模型 与 模板 的 比 对 
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Ut 
m 
Ns: 
= 
x 


Be Ed Du Move Dooley Setting Sene Mou Wed Pon 


COMPNO 6 ENGINEERED: YES 

ObjectMolecule: Read secondary structure assignments. 
ObjectMolecule: Read crystal symmetry information. 
Symmetry: Found 18 s try operators. 

CmdLoad: "0:/2GRY.pdb" loaded as "2GRY". 








MB PyHOL Viewer l- fes 
/9GRY//R/169 | 176 181 186 196 201 206 211 216 221 226 231 236 


{sele) 





图 4-15 kinesin 三 维 结构 预测 结果 可 视 化 


www.charmm.org/ ) 对 模型 进行 优化 。 
[ 例 4-4 ] 应 用 PROCARB 预 测 人 类 酸性 [ 神经 酰胺 酶 的 三 维 结构 
) 打 开 PROCARB( http: //www.procarb.org/ ), 进 入 主页 (图 4-16 ); 


È PROCAR B we 


prottin tructures with sequence- based, prediction tools 


Procarb Home CBS-Pred Homology Models Add Complex Datasets Tools Contact Search 





Thursday, March 15, 2012 PROCA 


ARB Statistics 
WELCOME TO PROCARB*«" 


PROCARB is an open access database comprising three independently working components:- 
1) PROCARB module- It consists of 3D structures of protein-carbohydrate complexes taken from PDB. (more...) 


2) Homology Models- It consists of manually developed 3D models of N-Linked and O-Linked glycoproteins 
of unknown three-dimensional structures. (more...) 


3) CBS-Pred- It consists of a webserver to predict carbohvdrate-binding sites using single-sequences or evolutionary 
information (PSSM) (more ) 


图 4-16 PROCARB 的 首页 
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) 点 击 “HUMOLOGY MODELS" ”进入 同 源 建 模 模 块 (图 4-17 ), 在 “Enter Swissprot ID" 
输入 框 中 输入 人 类 酸性 [ 神经 ] 酰 胺 酶 的 ID *Q13510" ,点 击 “Enter” ,可 自动 连接 3D-JIGSAW 
同 源 建 模 服 务 器 ,进行 三 维 结构 的 预测 ; 


HOMOLOGY MODELS 


Here, you can find the three dimensional structure models of diverse types of glycoproteins 
All these models were automatically generated by using 3DJIGSAW homology modeling server 


Enter Swissprot ID | Enter | Reset K06):8 X334 


图 4-17 PROCARB 的 UMOLOGY MODELS 模 块 





) 获得 人 类 酸性 [ 神经 ] 酰 胺 酶 的 基本 信息 和 模 建 的 三 维 结构 信息 等 (图 4-18 )。 例 如 ， 
EF E . 糖 基 化 位 点 、Pfam 的 描述 和 模 建 的 3D 结 构 的 下 载 链接 等 


Uniprot 





ID Q13510 
Protein Acid ceramidase 
Name 
Source Homo sapiens 
Linear amide C-N 
Pfam hydrolases, 
Description choloylglycine hydrolase 
family 
Gene ASAHIl 
Name 
It hydrolyzes the 
. sphingolipid ceramide 
Function into sphingosine and free 
fatty acid 
Glycosylation ASN259 & ASN286 
Sites 
Model 3 
3D Download Jd 
Structure 
Click Here to search 
Mora asticles in PMC for Acid 
ceramidase 





图 4-18 人 类 酸性 [神经] 酰胺 酶 的 预测 结果 


. Phyre Phyre( http: //www PEDAS a ) EZF MAANI 
Ei di 行 预测 ,主要 是 针对 网 上 数据 库 中 没有 高 同 源 性 模板 的 蛋白 三 级 结构 的 预测 。Phyre 
服务 右 是 2005 年 发 布 的 ,其 原理 是 基于 每 个 蛋白 特异 的 位 点 打分 和 矩 " itf Tprofile-profile EE 
对 。Phyre2 服 务 需 是 2011 年 发 布 的 , 它 增 加 了 一 些 功能 : MFT AY FP rl , E ECT BO UTER P 
和 使 用 HHpred / HHsearch 软 件 包 预测 同 源 性 等 
4. 其 他 蛋白质 三 维 结构 预测 软件 ”目前 ,还 有 很 多 蛋白质 三 级 结构 常用 预测 软件 ,如 
CPHmodels 、ESyPred3D、LOOPP、FUGUE 和 HMMSTR 等 ( 表 4-8 ) 
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表 4-8 三 级 结构 其 他 预测 软件 
GS a mmn a 
CPHmodels http: //www.cbs.dtu.dk/services/CPHmodels/ ”基于 profile-profile 的 比 对 的 功能 打分 算法 和 远 源 
的 同 源 蛋 白 模型 算法 方法 预测 蛋白 质 三 级 结构 
ESyPred3D http: //www.fundp.ac.be/sciences/biologie/ ”基于 神经 网 络 算法 提高 同 源 建 模 准确 性 的 预测 


urbm/bioinfo/esypred/ 
LOOPP http: //cbsuapps.te.cornel.edu/loopp.aspx EF A fii Er X — 4 3] 21 B 2r VUE VA 
别 算法 
FUGUE http: //tardis.nibio.go.jp/fugue/ 扫描 数据 库 的 结构 谱 ,计算 序列 结构 的 适应 性 打 


分 ,通过 序列 和 结构 比 对 预测 蛋白 质 折 又 
HMMSTR http: //www.bioinfo.rpi.edu/~bystre/ ”基于 隐 马 尔 科 夫 模型 预测 蛋白 质 三 级 结构 


hmmstr/server.php 


三 、 对 结构 预测 结果 的 评价 >> 


面 对 多 种 的 模型 和 预测 方法 ,有 多 种 公共 范围 的 实验 评估 方法 ,主要 是 LB、CASP 和 
CAFASP 、EVA 等 方法 。 

1. EVA ”哥伦比亚 大 学 的 研究 者 们 提供 了 一 种 以 连续 的 、 自 动 化 .大 规模 的 工作 方式 进 
行 蛋白 质 结构 预测 算法 评估 的 Web 服 务 器 EVA( http: //cubic.bioc.columbia.edu/eva ), H 前 ， 
EVA 评 佑 了 一 系列 在 网 上 可 获得 的 预测 算法 的 表现 。 每 周 ,最 新 被 测定 结构 的 蛋白 质 的 序 
列 被 自动 提交 到 预测 服务 器 ,然后 返回 评测 结果 ,并 形成 摘要 ,在 网 上 发 布 。 

2. CASP ”CASP 是 在 大 规模 实验 的 基础 上 对 和 蛋白质 结 构 了 预测 进行 测评 的 方法 。 测 评 工 
作 分 为 三 步 : 从 实验 研究 协会 收集 并 确定 预测 目标 蛋白 ,从 结构 模型 研究 协会 获得 预测 结 
果 , 讨 论 和 测评 。 相 关 的 具体 结构 由 X 射 线 衍射 晶体 检测 学 家 和 磁 共 振 波谱 学 家 提供 。 预 测 
目标 蛋白 涉及 了 三 个 预测 领域 : 模型 比 对 , 折 县 识别 和 从 头 预 测 方法 。 

3. LiveBench (LB) 实验 方法 “该 实验 方法 由 Rychlewski 和 Fischer 创 建 。 每 周 收集 新 公 
布 的 蛋白 质 结构 ,利用 这 些 相 对 大 量 的 预测 靶 , LB 不 断 地 对 各 自动 服务 器 进行 能 力 评估 , 约 
半年 评估 这 些 预测 方法 一 次 。 

另外 ,对 蛋白 质 三 维 结构 的 实验 或 理论 模型 进行 检查 以 发 现 可 能 错误 的 还 有 其 他 的 方 
法 ,如 PROCHECK 和 WHAT_CHECK 等 。 开 发 更 复杂 和 自动 的 计算 机 建 模 方 法 将 极 大 地 增加 
结构 基因 组 建 模 蛋 白 的 范围 。 在 该 领域 关键 的 问题 包括 : 四 对 于 在 PDB 库 中 相似 的 序列 ( 尤 
其 是 那些 与 丢 蛋 白 弱 或 远 距 离 同 源 的 ) 如 何 确定 正确 的 模板 和 如 何 优化 模板 使 其 与 天 然 构 
象 相 近 ; @) 若 序列 无 合适 的 模板 ,如 何 从 头 开始 进行 正确 拓扑 的 建 模 。 

随 着 人 们 对 和 蛋白质 序列 .结构 功能 相互 关系 的 更 深入 的 了 解 .技术 的 不 断 进步 以 及 
新 算法 、 新 方法 的 呈现 ,基于 实验 和 预测 方法 将 会 有 越 来 越 多 的 蛋白 质 结构 被 精确 解析 和 
获得 。 





SEU TS 
. 基于 和 蛋白质 结构 的 功能 分 析 





Section 4 Function Analysis Based on Protein Structure 


非 催化 保守 功能 域 经 常 介 导 蛋 白质 与 蛋白 质 间 的 相互 作用 ,这 些 多 肽 识别 模块 对 多 个 
蛋白 质 复合 物 的 装配 至 关 重 要 。 功 能 域 数据 库 与 功能 域 阵列 联合 应 用 ,使 蛋白 质 间 的 相互 
作用 探索 更 容易 。 和 蛋白 质 间 序 列 相似 性 高 于 40% 时 ,该 蛋白 质 同 其 序列 相似 蛋白 可 能 有 某 
些 由 保守 序列 发 挥 的 相同 生物 化 学 作用 ; 和 蛋白质 间 序 列 保守 性 低 于 40% 时 ,可 从 高 级 结构 预 
测 功 能 。 和 蛋白 质 有 多 个 功能 域 可 对 应 该 蛋白 质 的 某 些 精细 功能 。 从 高 级 结构 预测 功能 实际 
上 是 预测 蛋白 质 的 某 些 局 部 的 基本 生物 化 学 作用 而 不 是 全 部 生物 学 功能 。 按 蛋白质 功能 分 
类 的 数据 库 如 SPIN-PP 、MIPS 等 ,为 新 蛋白 功能 预测 提供 了 很 多 有 用 信息 。 


一 、 蛋 白质 结构 与 功能 基础 >> 


蛋白 质 的 空间 排列 在 行使 功能 时 起 至 关 重 要 的 作用 。 酶 活性 的 研究 表明 ,和 蛋白质 中 只 
有 一 小 部 分 参与 催化 活性 位 点 ,而 其 余 的 极 大 部 分 仅 用 作为 形成 和 固定 活性 位 点 的 稳定 基 
础 。 因 此 ,具有 不 同 的 一 级 甚至 三 级 结构 的 蛋白 质 可 能 具有 相似 乃至 完全 相同 的 生物 化 学 
功能 。 

在 进化 中 保守 的 蛋白 质 高 级 结构 通常 对 应 某 些 保守 的 精细 生物 化 学 功能 , 故 结构 相似 
的 蛋白 质 会 有 某 些 相似 的 精细 生物 化 学 功能 。 对 已 知 结构 的 蛋白 质 进行 分 类 ,搜寻 同类 和 蛋 
白 的 功能 是 预测 目标 蛋白 功能 的 有 效 手 段 。 

最 早 基 于 结构 进行 蛋白 质 功 能 注释 的 方法 是 搜索 与 目标 蛋白 质 结构 相似 的 蛋白 质 , 并 
将 其 功能 转移 给 目标 和 蛋白质。 此 过 程 中 需要 进行 蛋白 质 的 结构 比 对 和 判断 结构 相似 程度 。 
可 将 这 种 相似 性 估 值 转化 为 序列 比 对 问题 ,利用 序列 比 对 经 典 算法 来 解决 结构 比 对 问题 ,如 
DaliLite、SSM 、STRUCTAL、MultiProt 和 3DCoffee 等 。 基 于 “具有 相似 功能 的 蛋白 质 定位 于 结 
构 空 间 图 中 相 邻 近 的 位 置 ", Hou 等 ( 2005 ) 使 用 多 维度 标 度 技术 ( multi-dimensional scaling, 
MDS ) 构建 了 一 个 蛋白 质 结构 空间 图 ( SSM ), 根 据 DaliLite 结 构 比 对 方法 进行 相似 性 打分 ,最 
终 在 构建 的 结构 空间 中 按照 距离 靖 值 将 一 个 新 的 蛋白 质 归 类 到 某 个 功能 类 别 中 。 

还 有 一 些 方法 试图 将 结构 相似 性 方法 与 其 他 方法 结合 进行 功能 决策 。 例 如 ,考虑 一 个 
系统 发 育 上 下 文中 的 结构 相似 性 ,会 增加 功能 注释 的 精确 性 。 综 合 方法 致力 于 在 特定 生物 
学 背景 下 解决 结构 比 对 问题 ,有 助 于 提高 结构 功能 预测 的 精确 性 。 
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二 、 蛋 白质 结构 与 功能 关系 数据 库 >> 


和 蛋白质 结 构 与 功能 关系 数据 是 进行 蛋白 质 功 能 预测 及 和 蛋白质 设计 的 基础 。 目 前 已 有 一 
些 重 白质 结构 与 功能 关系 的 数据 库 , 如 PIR、Pfam 和 InterPro 等 。 


(一 ) Pfam 数 据 库 


Pfam( the protein families database ) 是 通过 自动 比 对 构建 的 蛋白 质 结构 域 家 族 数据 库 , 它 
收集 了 大 量 的 蛋白 质 多 重 序 列 排 布 以 及 HMMs( profile hidden Markov models ) 文件 的 数据 ， 
将 具有 结构 相似 性 的 序列 归 为 一 类 ,可 用 类 的 名 称 查 询 到 原始 序列 比 对 信息 。 它 可 广泛 用 
于 通过 序列 比 对 推测 蛋白 质 结 构 域 排 布 形式 及 其 功能 等 领域 。 最 新 的 Pfam 25.0 版 本 涵盖 
了 12 273 个 重 白 质 家 族 , 这 些 Pfam 家 族 是 基于 SWISS-PROT 以 及 TrEMBL 中 的 蛋白 质数 据 的 。 
应 用 Wise 2 软件 包 可 以 用 基因 组 DNA 对 Pfam 文 库 进行 直接 搜索 ,在 地 址 栏 中 输入 http: //pfam. 
sanger.ac.uk/ 打开 Pfam( 图 4-19 )。 有 多 个 网 站 支持 这 类 数据 库 和 搜索 。 


wellcome trust 
Ki sanger HOME | SEARCH | BROWSE | FTP | HELP | ABOUT Pfam 
institute sa 
Pfam 25.0 (March 2011, 12273 families) 


The Pfam database is a large collection of protein families, each represented by multiple sequence 
alignments and hidden Markov models (HMMs). 


QUICK LINKS YOU CAN FIND DATA IN PFAM IN VARIOUS WAYS... 
SEQUENCE SEARCH Analyze your protein sequence for Pfam matches 
VIEW A PFAM FAMILY View Pfam family annotation and alignments 
VIEW A CLAN See groups of related families 
VIEW A SEQUENCE Look at the domain organisation of a protein sequence 
VIEW A STRUCTURE Find the domains on a PDB structure 
KEYWORD SEARCH Query Pfam by keywords 


wero (sse CO CID 


Enter any type of accession or ID to jump to the page for a Pfam 
family or clan, UniProt sequence, PDB structure, etc. 


Or view the help pages for more information 


图 4-19 PfamXX4E R- i X 


Pfam 数 据 库 包含 Pfam-A.seed 和 Pfam-A.full 等 文件 ,这 些 是 以 Stockholm 格 式 注 释 的 
“seed” 和 “full” 排 布 ; PfamFrag 是 为 搜索 相 匹 配 的 蛋白 片段 而 特别 设计 的 HMMs 文 件 文 
库 ; PfamB 是 以 Stockholm 格 式 注释 的 Pfam-B 家 族 数 据 文件 ; Diff 是 用 来 对 Pfam 来 源 数据 进 
行 更 新 的 文件 ; Pfamseq 是 以 fasta 格 式 注释 的 序列 数据 。Pfam 数 据 库 包括 文本 搜索 、 蛋 白质 
HMM 搜 索 、DNA HMM 搜 索 ,浏览 PFAM、NIFAS 和 结构 域 查询 等 几 个 部 分 。 可 进行 多 种 方式 
的 搜索 : 直接 在 JUMP TO 中 输入 要 搜索 和 蛋白质 的 Pfam accesion 或 ID; @ 也 可 以 在 VIEW A 
SEQUENCE 中 输入 在 UniProt、NCBI 或 metagenomic 序 列 数据 库 中 已 有 和 蛋白质 的 序列 accesion 
或 ID; (3 或 在 SEQUENCE SEARCH 中 直接 输入 要 查询 的 蛋白 质 序列 ,也 可 以 搜索 蛋白 质 的 
FAMILY .CLAN 等 。 

另外 , Pfam 还 包括 蛋白 质 的 功能 注释 .参考 文献 以 及 与 其 相应 家 族 信息 相 链 接 的 数 
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据 库 。 每 个 Pfam 家 族 包 括 “seed alignment”( 由 家 族 中 具有 代表 性 的 成 员 构 成 ) 和 “full 
alignment”( 所 有 家 族 成 员 构 成 ) 两 部 分 。 所 有 排 布 都 采用 来 源 于 Pfamseq 的 数据 。 在 “seed 
alignment” 基 础 上 应 用 HMMER( http: //hmmer.wustl.edu ) 建立 HMM 文 件 对 Pfamseq 序 列 数 据 
库 进行 搜索 。Pfam 的 重要 功能 包括 将 蛋白 质 快速 自动 划分 入 不 同 的 结构 域 家 族 。 当 前 主要 
运用 HMMer 软 件 对 蛋白 质 翻译 进行 注释 ,或 应 用 Gene Wise 2 软件 直接 预测 基因 并 注释 基因 
组 DNA。 dd 吉 打 表明 ,在 同 源 区 域内 它 预测 基因 的 准确 性 可 达到 989%。 乡 转机 
域 边界 选择 错误 可 能 造成 家 族 分 类 重 全 或 遗漏 。 但 随 着 Pfam 数 据 库 的 不 断 完善 ,其 功能 
日 趋 完善 。 

[ 例 4-4 ] 在 Pfam 数 据 库 中 查询 人 类 原 癌 基 因 VAV 

首先 ,进入 Pfam 数 据 库 的 首页 ,点 击 VIEW A SEQUENCE ,输入 人 类 原 癌 基 因 VAV 编 码 蛋 
白质 的 UniProt ID( P15498 ) 进行 搜索 (图 4-20 )。 





"d wellcome trust 
EN Sanger HOME | SEARCH | BROWSE | FTP | HELP | ABOUT am 
"MI institute Eas ©) 
Pfam 26.0 (November 2011, 13672 families) 


The Pfam database is a large collection of protein families, each represented by multiple sequence 
alignments and hidden Markov models (HMMs). More... 


QUICK LINKS YOU CAN FIND DATA IN PFAM IN VARIOUS WAYS... 
SEQUENCE SEARCH Analyze your protein sequence for Pfam matches 
VIEW A PFAM FAMILY View Pfam family annotation and alignments 
VIEW A CLAN See groups of related families 
VIEW A SEQUENCE Look at the domain organisation of a protein sequence 
VIEW A STRUCTURE Find the domains on a PDB structure 
KEYWORD SEARCH Query Pfam by keywords 


wero fsa GED 


Enter any type of ac “ag or ID to jump to the page for a Pfam family or 
clan, UniProt sequence, PD cti 







Or view the help pages for moh 


在 搜索 框 中 输入 P15498 


Recent Pfam blogs? posts 加 Hide this 
Proposed Pfam release changes? (posted 27 February 2012) 


The current Pfam release, version 26.0, took approximately 4 months to nurse through the various 
stages of updating the sequence database, resolving overlaps between families, rebuilding the MySQL 
database and performing all of the post-processing that constitutes the ‘release’ The production team 
strives to make two releases a year, but I really do not fancy [...] 


The Pfam website in a virtual machine® (posted 26 January 2012) 


Since releasing the new Pfam website four years ago, we've had a steady trickle of mails from users who 
would like to install and run the site within their own local environment. It used to be possible to do just 


图 4-20 查询 人 类 原 冶 基因 VAV 


查询 结果 如 图 4-21 所 示 , 左 侧 Summary 标 签 页 中 包含 VAV 的 基本 信息 : 来 源 、 长 度 及 所 
包含 的 结构 域 信息 。VAV 共 有 6 种 7 个 结构 域 : CH、RhoGEF、PH、C1_1、SH3_1、SH2, 在 图 中 
以 不 同 颜色 表示 ,点击 各 结构 域 的 链接 可 以 进一步 查看 各 结构 域 的 信息 。 

点 击 左 侧 Sequence 标 签 , 可 显示 该 蛋白 质 的 序列 信息 (图 4-22 )。 

Structures 标 签 页 中 显示 各 结构 域 在 UniProt 及 PDB 中 的 信息 (图 4-23 ), 可 以 用 三 种 形式 
查看 其 对 应 的 三 维 结构 : Jmol, AstexViewer, SPICE. 
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Pfam 


Keyword wearch ©) 


HOME | SEARCH | BROWSE | FTP | HELP | ABOUT 





Summary 


VAV_HUMAN 
This is the summary of UniProt entry VAV HUMAN (P1549819). 


Description: Proto-oncogene vav 


Source organism: Homo sapiens (Human) (NCBI taxonomy ID 96068) 
View Pfam proteome data. 


= 和 845 amino acids 
Please note: when ve start each new Pfarn data release, we take a copy of the UniProt sequence database. This snapshot of UniProt forms the 
basis of the overview that you see here. It is important to note that, although some UniProt entries may be removed after a Pfam release, these 
entries will not be removed from Pfarn until the next Pfam data release. 


Pfam domains 


This image shows the arrangement of the Pfam domains that we found on this sequence. Clicking on a domain will take you to 
the page describing that Pfam entry. The table below gives the domain boundaries for each of the domains. 












3 urce «| ros Domain =| 
Pfam A 
low_complexity n/a 
Pfam A RhoGEF 198 372 
low. complexity n/a 356 367 结构 域 信 息 
Pfam A PH 403 504 
Pfam A Gi-1 516 568 
Pfam A SH3 1 615 652 
Pfam A SH2 671 745 
Pfam A SH3 1 788 834 








图 4-21 人 类 原 癌 基 因 VAV 的 查询 结果 
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| 

| 

| 

网 | 

Sequence information | 

| 

| 

This is the amino acid sequence of the UniProt sequence database entry with the accession P15498. This sequence is | 

stored in the Pfam database and updated with each new Pfam release, but this means that the sequence we store may | 

differ from that stored by UniProt. | 

1 NEELWTGCTEY LIQCRVLPPS ERVTWICAQY CFLAQALEDG VLLCQLIIMTL 

51 LPEAINLEEV WLERQESQFL. CLINIRITIS TCCEKFCLER SELFEAFILF 

101 DWQIFGIVIY TISALSWTPI AQETCINPTP TEEESVGDED IYSCISIRID 

151 DTVEFDETLY ICVENEEAEG DEIYEDLERS FPVSEPPENT EYIERCCCIR 

201 EIQGTERKYT UTLCSIQQET LEPLORFLEP QDIEIIFINI FILLNVETEF 

251 LEFEREALGT FGANILYQYF IXYEERFLVY GRYCSQVESA SIHLIEWAAA 

301 REDVONELEE CSQRAMNGHF TLDLIEYPE QEVLIYEILL GELVIBTORA 

SOOO 351 EMIFA DANNULAQCOY NEVEFIGETL TOITHPVISI ENLDQSLAHY 

. 401 GRPEIDGELE ITSVERRSEE DEYAFLLDEK LLICKRAGIS YDLIIFWILE 

451 STQVRICSSG DEDBEEWSEN FLLIFIQCAQ GYELFFETRE LYXIVEPQE 

— SOL BISHIYPE AIMECHIFQE PSFEETISCE ACQMLLPGTF YüCTRCERCR 

551 JSAEIPCLFR VPPCCPHCQD FPCTEILDEL EKRAQDEERU FLGLPEREVE 

601 GEYYGLPFPP GAIGPFLNIE PGDIVELTIA EAEUNETEGR HISINEICHF 

651 PORRVEPYVE GPPQILSVEL TYAGPEERA AESILANTSD GTFLVAGRVE 

+ TO} DARETAISIK VUVEVEHIKI EIAEGLYRIT FKKAFEGLTE LVEFYOQUSL 

) B , 751 XICFESLDTT LQFPFEEPEE RIISHPAVGS TEYFGTAKAR YORCARDESE 
s% 301 LSIKECDIIE ILNKECQOQGE FEGEIYGENG TFPATYVEED YSEYC 


Sequence: 





SES 


Show the unformatted sequence. 


Checksums: CAC64: 
MDS: 


AC3BC9736FD2F 138 
3b6f9F902401SdaZafS6SdS489f7 1dla 











maet a 


Comments or questions on the site? Send a mail to pfam-help@sanger.ac.uk. Our cookie policy. 
The Wellcome Trust 


图 4-22 人 类 原 癌 基因 VAV 的 序列 信息 
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A wellcome trust 
Ki sanger HOME | SEARCH | BROWSE | FTP | HELP | Pfam 


ABOUT 


institute keyword search (Go ] 


Protein: VAV_HUMAN (P15498) = Ul 5 (4 29 


1 architecture 1 sequence O interactions 


Features 


$ ce For those sequences which have a structure in the Protein DataBank'*, we use the mapping between UniProt @, PDB and 
equan * Pfam coordinate systems from the MSD? group, to allow us to map Pfam domains onto UniProt three-dimensional 












Interactions ， structures. The table below shows the mapping between Pfam domains, this UniProt entry and a corresponding three 
dimensional structure. 
TreeFam ert i X | 
516 - 568 
m £i akys B 516 - 568 Jmol AstexViewer SPICEG? 
Jump to... hs ee A 4-119 Jmol AstexViewar SPICE 
enter Wace CD 8 4-119 Jmol AstexViewer SPICE? 
A 403 - 504 Jmol AstexViewer SPICE 
403 - 504 aky9 
= B 403 - 504 Jmol AstexViewer SPICEC? 
A 198-372 Jmol Astexviewer SPICE? 
- 372 
EnoGEE 198 Kys 8 198-372 Jmol AstexViewer SPICE 
A 71-745 Jmol [^ 
SH2 BYL- PAE 2LCT 671 AstexViewer SPICE 
2ROR A 28-102 Jmol AstexViewer SPICES 








Comments or questions on the site? Send a mail to pfam-help@sanger.ac.uk. Our cookie policy 
The Wellcome Trust 


图 4-23 人 类 原 癌 基因 VAV 的 结构 信息 
在 Jmol 中 查看 Cl1_1 的 A 链 在 PDB 中 的 三 维 结构 ,如 图 4-24 中 紫色 所 示 。 















Pee 
YAV HUMAN 





PhoGEF ( PF00621) 


a 516 568 YAY HUMAN 516 568 C1 1 (PF09139) 

A 4 119 YAV HUMAN 4 119 CH (PEQ0307) 

A 403 504 VAY HUMAN 403 504 PH (_PFO0159) 

B 198 372 VÀV HUMAN 198 372 RhoGEF ( PF00621) ~x 


图 4-24 人 类 原 冶 基 因 VAV 的 C1 一 1 的 A 链 的 三 维 结构 
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(=) PIR 数 据 库 


PIR 全 称 为 The protein information resource, 是 一 个 集成 了 关于 和 蛋白质 功 能 预测 数据 的 
公共 资源 数据 库 , 其 目的 是 支持 基因 组 /蛋白 质 组 研究 。PIR 与 MIPS( the Munich information 
center for protein sequences ),JIPID( the Japan international protein information dDatabase ) 合作 ， 
共同 构成 了 PIR- 国 际 蛋 白质 序列 数据 库 ( PSD ) 一 一 一 个 主要 的 已 预测 的 蛋白 质数 据 库 , 包 
1525 0 000 个 和 蛋白。 为 了 提高 蛋白 质 预 测 和 实验 数据 之 间 的 相互 吻合 程度 , PIR 建 立 了 一 套 
系统 ,允许 研究 者 们 递交 、 分 类 提取 文献 信息 。PIR 提 供 了 在 超 家 族 、 域 和 模 体 水 平 上 对 和 蛋 
白 的 分 类 。PIR 同 时 提供 了 和 蛋白 的 结构 和 功能 信息 ,并 给 出 了 与 其 他 40 个 数据 库 之 间 的 相互 
参考 。PIR 还 提供 了 一 个 非 元 余 的 蛋白 质数 据 库 ,包括 从 PIR-PSD 、SWISS-PROT TrEMBL, 
GenPept, RefSeq 、PDB 收 集 来 的 约 800 000 条 序列 ,对 每 条 序列 给 出 了 一 个 符合 的 名 称 和 相 
关 文 献 。 为 了 提高 数据 库 的 协同 工作 能 力 , PIR 采 用 开发 的 数据 库 框 架 , 利 用 XML 技术 进行 
数据 发 布 。 在 PIR 的 站 点 上 (http: //pir.georgetown.edu/ ) 也 提供 了 常规 的 生物 信息 学 工具 ,以 
进行 数据 挖掘 。 


(=) 目前 常用 的 蛋白 质 结构 和 功能 数据 库 ( 表 4 一 9) 


数据 库 


SignalP 


STRUCTURE ANALYSIS 





表 4-9 蛋白质 结构 和 功能 关系 数据 库 


功能 信息 
蛋白 质 信号 肽 信息 


H http: //www.cbs.dtu.dk/services/SignalP 


ScanProsite 


Pfam 


SMART 


InterPro 


MATA 


TMHMM 


PSORT 


PDB 


MIPS 


COG 


结构 信息 网 址 

{ri SAK 

结合 位 点 http: //us.expasy.org/tools/scanprosite 

结构 域 http: //pfam.sanger.ac.uk/ 

结构 域 http: Wsmart.embl-heidelberg.de 

结构 域 http: //www.ebi.ac.uk/interpro/scan.html 
拓扑 结构 http: //cubic.bioc.columbia.edu/predictprotein/ 

submit. met.html 

跨 膜 结 构 http: //www.cbs.dtu.dk/services/ TMHMM—2.0 
细胞 定位 http: //psort.nibb.ac.jp/form2.html 

3D 结 构 http: //www.pdb.org 

物理 结构 。” http: //www.mips.biochem.mpg.de/proj/yeast/ 
互 作 tables/interaction 

同 源 性 http: //www.ncbi.nlm.nih.gov/COG 

家 族 


检索 Prosite 数 据 库 的 快捷 方式 , 提 


供 结合 位 点 描述 信息 


结构 域 常用 数据 库 ,提供 结 构 域 功 
能 描述 


结构 域 常用 数据 库 ,提供 结构 域 功 
能 描述 


结构 域 常用 数据 库 ,提供 结构 域 功 
能 描述 


可 自动 链接 到 不 同 的 拓扑 结构 分 
析 程 序 


常用 的 跨 膜 结构 预测 平台 
查找 细胞 定位 信号 或 基 序 


新 发 现 蛋 白质 通常 为 阴性 结构 ,但 
可 与 同 源 蛋白 质 进行 结构 比较 


收集 酵母 中 蛋白 质 相 互 作用 


存储 多 物种 同 源 蛋 白质 信息 ,蛋白 
质 家 族 信息 
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三 、 从 蛋白 质 结构 推断 其 功能 的 方法 与 分 析 软 件 >> 


蛋白 质 必须 有 特定 的 三 维 空间 结构 ,才能 表现 其 特定 的 生物 功能 。 和 蛋白 质 的 进化 中 保 
守 的 三 维 结构 通常 对 应 某 些 保 守 的 精细 生物 化 学 功能 ,结构 相似 的 蛋白 质 会 有 某 些 相似 的 
精细 生化 功能 。 因 此 单纯 依靠 蛋白 质 序列 相似 性 无 法 预测 其 功能 。 

早期 基于 结构 预测 蛋白 质 功 能 的 方法 是 搜索 与 目的 蛋白 质 结构 相似 的 蛋白 质 ,并 将 其 
功能 赋 给 目的 蛋白 质 ,如 DaLiLite、SSM、STRUCTAL、MultiProt、3Deoffee 等 ,这 些 方法 将 结构 
问题 转化 为 序列 问题 ,利用 经 典 序列 相似 性 算法 来 衡量 结构 相似 性 。 虽 然 和 蛋白 质 三 维 结构 
对 预测 蛋白 质 功 能 很 有 意义 ,但 这 并 不 意味 着 知道 蛋白 质 结构 就 一 定 知道 其 功能 ,这 主要 由 
于 蛋白质 功 能 依赖 于 其 所 处 的 细胞 环境 ,而 且 和 蛋白 质 的 折 炙 修饰 极 大 地 影响 蛋白 质 功 能 ,所 
以 依据 蛋白 质 结构 预测 其 功能 十 分 困难 。 目 前 还 缺少 仅 依赖 于 人 蛋白质 结 构 直 接 预 测 其 功能 
的 方法 。 一 般 的 做 法 是 通过 识别 蛋白 质 结构 上 的 活性 位 点 ,结合 区 域 或 同 源 折 全 关系 为 预 
测 蛋 白质 功 能 提供 线索 。 该 方法 很 依赖 蛋白 质 模型 的 可 靠 性 ,从 头 预测 法 很 难 满 足 蛋白 质 
功能 特征 识别 的 需求 ,然而 可 以 利用 模糊 功能 结构 ( fuzzy functional forms, FFFS ) 来 实现 , 即 
使 用 碳 原 子 和 侧 链 的 中 心 位 置 来 设计 识别 特定 的 结构 模 体 进而 预测 功能 的 算法 。 

还 有 些 利用 其 他 途径 来 预测 蛋白 质 功能 的 方法 ,如 基于 同 源 的 进化 分 析 方 法 .基于 功能 
域 的 分 析 方 法 、 基 于 基因 表达 簇 的 分 析 方 法 等 。 综 合 不 同方 法 在 特定 生物 学 背景 下 解决 结 
构 比 对 的 问题 ,有 助 于 提高 通过 结构 预测 功能 的 精确 性 。 如 Michael、Edward 等 人 都 结合 
种 方法 进行 研究 并 得 到 相对 理想 的 结果 。 

下 面 介绍 一 些 现 有 的 基于 结构 预测 功能 的 方法 及 软件 ,这 些 方法 分 为 四 类 : 

1. 基于 相似 性 的 方法 及 软件 ”对 于 给 定 蛋 白质 结构 ,通过 结构 比 对 技术 基于 相似 性 方 
法 ( similarity-based approaches ), 来 识别 结构 相似 绰 白 来 预测 功能 。 几 种 常用 的 基于 相似 性 
预测 功能 的 方法 ( 表 4-10 ), 表 中 前 九 个 是 两 两 比 对 算法 ,最 后 两 个 是 多 重 比 对 算法 。 不 过 这 
些 方法 会 受到 缺少 确定 功能 的 蛋白 质 结构 域 功能 相似 性 之 间 存 在 差异 等 限制 。 


表 4-10 ” 几 种 常用 基于 相似 性 预测 功能 的 方法 


方法 ; 参考 文献 
DaliLite Holm and Park 2000 
CE-MC Shindyalov and Bourne 1998 
SSAP Oren go and Taylor 1996 
SSM Krissnel and Henrick 2004 
STRUCTAL Kolodny and linial 2004 
LSQMAN Kleywegt 1996 
Proknow Pal D and Eisenberg D 2005 
VAST Thompson KE et al.2009 
FLORA Redfern OC et al.2009 
MultiProt Shatsky et al.2004 


3DCoffee O° Sullivan et al.2004 


^,194 第 四 章 ”蛋白 质 结构 分 析 
CHAPTER 4 PROTEIN STRUCTURE ANALYSIS 





另外 ,基于 FSSP 数 据 库 设计 的 PHUNCTIONER 方 法 ,通过 识别 每 个 蛋白 质 中 G0 分 类 
特异 的 结构 位 点 ,对 蛋白质 残 基 保 守 性 进行 Z 值 ( Z—score ) 计算 来 预测 功能 ,精确 度 达 到 
759%~90%。ROC 分 析 结 果 显 示 其 精确 性 和 灵敏 度 比 基 于 简单 序列 的 方法 更 高 。 

还 有 ,基于 多 维 标 度 技术 ( MDS ) 的 方法 ,依据 具有 相似 功能 的 蛋白 质 相互 近邻 的 推断 ， 
将 蛋白 质 定位 在 蛋白 质 结构 空间 图 ( SSM ) 中 ,使 用 DaliLite 方 法 进行 打分 判断 蛋白 质 的 GO 分 
类 。 同 样 通过 ROC 分 析 显 示 ,该 方法 同样 好 于 基于 简单 序列 相似 性 的 方法 。 

【 例 4-5 ] 用 ProKnow 预 测 人 类 乙 醛 脱氧 酶 的 功能 

( 1) 打开 ProKnow( http: //services.mbi.ucla.edu/proknow/ ) (图 4-25 )。 





UCLA MBI — ProKnow UCLA 
Welcome to the ProKnow server. HELP 

ProKnow predicts the function of proteins from sequence or structure. Tips 

Submit your protein sequence or structure for analysis below. Click here for useful tips. Email: Debnath Pal 


Job Parameters 





If you would like to submit multiple sequences, use the batch submission form. 




















Your email: « Your results will be sent ta that address. 

x i r « Select the species of the organism to which your protein 
NOBI.spacies code: s) belongs. Leave blank if unknown 
BLAST type: [PSIBLAST ~| 
Use DIP: [DIP On x] « Include data from the Database of Interacting Proteins? 
Use ProLinks: [ProLinks On vj « Include data from the ProLinks? 
Evidence Level: [Level 0 党 | «? 

1 ; « Submission of proteins structures is temporarily disabled due to 
Submission type: Oo Sequence Submission maintenance : j 
Submit Job 


图 4-25 ProKnow 主 界面 


(2 ) 在 Your email 处 输入 你 的 邮箱 地 址 以 便 查询 结果 返回 ; 选择 物种 为 人 类 H.sapiens 
( 9606 ); 选中 “Sequence Submission" ; 输入 人 类 乙 醛 脱氧 酶 的 序列 (FASTA 格 式 ); 点 击 
"Submit Job” 进 行 搜索 (图 4-26 )。 

(3) 等 待 一 段 时 间 后 可 得 到 结果 (图 4-27 ): 预测 的 乙 醛 脱 氢 酶 可 能 的 功能 为 “aldehyde 
dehydrogenase | NAD( P ) +] activity" , “oxidoreductase activity" , "phosphopyruvate hydratase 
activity" , “aldehyde metabolic process" , "negative regulation of metabolic process" fl "negative 
regulation of glycolysis” 。 

2. 基于 三 维基 序 的 方法 ”这 一 类 方法 试图 识别 三 维基 序 ( 3- dimensional motif-based ), 
即 保 守 亚 结 构 , 建 立 蛋 白质 功能 和 结构 基 序 的 关系 映射 来 预测 蛋白 质 功能 。 通 过 结构 比 
对 的 保守 性 分 析 策 略 , 可 以 有 效 地 预测 蛋白 质 功能 。 基 于 这 种 策略 有 许多 方法 和 软件 ( 表 
4-11 )。 
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UCLA MBI — ProKnow UCLA 
Welcome to the ProKnow server. HELP 

ProKnow predicts the function of proteins from sequence or structure. Tips 

Submit your protein sequence or structure for analysis below. Click here for useful tips. Email: Debnath Pal 


Job Parameters 





If you would like to submit multiple sequences, use the batch submission form. 





zi = | 


Your email: jiaxu2006068126. com E « Your results will be sent to that address. 
: A I = <= « Select the spedes of the organism to which your 
NCBI species code: H. sapiens (9606) | * protein belongs. Leave blank if unknown 
BLAST type: PSIBLAST * 
" « Include data from the Database of Interacting 
Use DIP: DIP On ¥ teins? 
Use ProLinks: ProLinks On v « Indude data from the ProLinks? 
Evidence Level: [Level ov «? 
Submission type: ©) Sequence Submission « Submission of proteins structures is temporarily 


disabled due to maintenance 


Sequence Submission 








FASTA File: Se e imr Sea 

FASTA Sequence: RE SEEN A .. * Either upload à 
LAGCIKTLRYCAGWADKIQGRTIPIDGNFFTYTRHEPIGVCGQIIPWNFPLVMLIWKIGPA ^ text file in 
LSCGNTVVVKP AEQTP LTALHVASLIKEAGFPPGVVNIVPGYGPTAGAAISSHMDIDKVAF FASTA format 


TGSTEVGKLIKEAAGKSNLKRVTLELGGKSP C IVLADADLDNAVEF AHHGVF YHQGQCCIA lhe 
ASRIFVEESIYDEFVRRSVERAKK Y ILGNPLTPGVTQGP QIDKEQYDK ILDLIESGKKEGA rns óg 
;KLECGGGPWGNKGYF VQP TVF SNVTDEMR IAKEE IFGP VQQIMKFKSLDDV IKRANNTF YG paste the _ 
LSAGVFTKDIDKAITISSALQAGTVWVNCYGVVSAQCPFGGFKMSGNGRELGEYGFHEYTE v ^— sequence (or 
VKTVTVKISQKNS | FASTA file) into 


this box. 


图 4-26 在 ProKnow 主 界面 中 输入 要 搜索 的 蛋白 质 序列 及 其 他 参数 
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Type Evidence Rank Clues Description 

Term 
Function 0004030 0.5133 1.0 4 aldehyde dehydrogenase [NAD(P)+] activity 
Function 0016491 0.3209 1.0 4 oxidoreductase activity 
Function 0004634 0.1658 1.0 4  phosphopyruvate hydratase activity 
Process 0006081 0.5133 1.0 4 aldehyde metabolic process 

negative regulation of metabolic process; GO:0009892 ; 

Process 0008152 0.3209 1.0 + synonym:down regulation of metabolic... 
P 0006096 0.1658 1.0 4 negative regulation of glycolysis; GO:0045820 ; synonym:down 


regulation of glycolysis ;... 


图 4-27 ProKnw# € rH 
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表 4-11 几 种 常用 的 基于 三 维基 序 预 测 功能 的 方法 


方法 描述 


SITE 算 法 数据 库存 储 了 酶 活性 位 点 保守 基 序 信息 ,通过 位 点 匹配 程序 寻找 关键 的 功能 
位 点 残 基 作 为 保守 残 基 ; 但 是 在 处 理 高 度 同 源 蛋 白 时 会 遇 到 其 残 基 不 保守 的 
情况 ,因此 需 仔细 分 析 这 些 信息 预测 功能 


TESS 算 法 采用 几何 散 列 算法 ,通过 模板 分 析 和 重合 从 和 蛋白质 的 高 级 结构 中 寻找 保守 的 
必需 残 基 , 将 未 知 蛋 白 与 必需 残 基 进 行 比 对 预测 其 功能 ,但 该 方法 对 高 级 结构 
预测 精度 要 求 较 高 

FFFs( 模 糊 功能 形态 ) 该 方法 基于 几何 形状 . 残 基 一 致 性 和 蛋白 活性 位 点 的 证 实 对 蛋白 质 进 行 三 维 
描述 来 预测 蛋白 质 功能 

SPASM 同时 用 主 链 a 碳 原 子 和 侧 链 基 团 作 为 分 析 对 象 ,寻找 并 列 的 保守 残 基 , 并 用 于 
搜索 结构 数据 库 中 能 匹配 的 已 知 功能 蛋白 进而 预测 功能 

FCANAL Fast Calculable Protein Function ANALyzer, 通 过 定义 重要 功能 残 基 构 建 kernel 功 
能 位 点 ,对 其 他 残 基 构 建 相 似 性 矩阵 ,进而 预测 功能 

ProFunc server 对 查询 蛋白 质 结 构 , 包 括 序列 和 结构 motif 搜 索 、 活 性 位 点 识别 和 全 局 折合 比 


较 , 进 行 基于 结构 和 序列 的 功能 预测 


还 有 一 些 数 据 库 可 用 于 识别 蛋白 结构 域 及 新 蛋白 功能 预测 , 如 PROCAT、 PROSITE , 
PRINTS 、SMoS 和 DSMP 等 。 

3. 基于 表面 的 方法 一 个 蛋白 质 结构 被 定义 为 一 个 由 三 组 坐标 组 成 的 坐标 组 ,每 组 从 
标 表示 对 应 氨基 酸 的 空间 位 置 ,这 表示 分 子 内 的 相互 作用 会 影响 氨基 酸 水 平 或 原子 水 平 上 
特定 的 生物 功能 。 而 蛋白 相互 作用 通常 由 于 分 子 表 面 互补 性 而 发 生 ,因此 通过 蛋白质 表面 
结构 的 信息 来 预测 功能 的 方法 被 提出 。 

常用 的 方法 是 用 图 论 技术 来 解决 表面 匹配 问题 ,将 来 自 PDB 数 据 库 的 蛋白 质 结构 信息 
用 MSP 算 法 分 析 其 静电 潜能 和 下 水 性 ,进而 分 析 其 生化 功能 的 静电 表面 ( eF-site ) 推 测 功 能 。 
另 一 种 方法 由 Binkowski 等 提出 ,基于 蛋白 质 表面 模型 分 析 溶剂 或 配 基 与 蛋白 质 的 关系 ,推测 
蛋白 质 功能 。 他 们 认为 溶剂 或 配 基 可 以 帮助 蛋白 质 发 挥 功 能 ,然后 用 Edelsbrunner 方 法 分 析 
蛋白 质 结构 ,依据 pvSOAR 数 据 库 进行 预测 估 值 。 另 外 SURFACE 数 据 库 也 可 对 蛋白 质 进行 局 
部 表面 特征 ( local surface patterns, clefts ) 模式 识别 ,数据 库 选 用 SURFNET 算 法 识别 clefts ,使 
用 PROSITE 数 据 库 进行 GO 功能 注释 ,结合 RMSD 和 PAM 和 矩阵 进行 测量 打分 .预测 功能 ,精确 
性 可 达 90%。 | 

4. 基于 机 器 学 习 的 方法 ”利用 有 效 的 分 类 方法 如 SYM 和 KNN 等 ,筛选 最 相关 的 结构 特 
征 中 识别 最 适合 的 功能 分 类 。 基 于 机 器 学 习 的 方法 在 功能 预测 上 有 着 很 大 的 成 绩 ,如 通过 
数据 控 气 和 机 器 学 习 方 法 的 研究 ,分析 两 个 数据 对 象 之 间 的 相似 性 的 可 变 模型 来 预测 功能 。 
比较 具有 代表 性 的 方法 有 三 种 : DK panem sw(S,T), 基 于 相关 氨基 酸 对 定义 两 个 亚 结构 之 间 
的 相似 性 ; DK proton rne, S, T ), 基 于 蛋白 质 基 序 CxxC 定 义 琉 基 化 合 物 /二 硫化 合 物 和 氧化 还 原 
酶 蛋白 的 功能 相似 性 ; OK ss Pis P, ), 前 面 提 到 前 两 种 算法 都 是 依据 氨基 酸 位 点 定义 相似 
性 ,而 该 算法 是 由 给 定 半 径 的 球形 内 的 一 组 氨基 酸 定 义 的 。 利 用 核 函 数 构建 分 类 咒 , 主 要 有 
K-NN( K-nearest neighbor ) 和 SVM 两 种 分 类 器 ,有 实验 表明 K-NN 比 SVM 具有 更 好 的 预测 效 
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果 。 但 是 基于 机 器 学 习 方 法 的 障碍 是 缺少 可 信 的 和 蛋白质 结构 信息 ,因此 随 着 对 蛋白 质 领域 
的 进一步 研究 ,这 种 方法 会 有 更 好 的 效果 。 


四 、 蛋 白质 相互 作用 与 蛋白 质 功 能 》》 


生物 系统 的 功能 是 由 分 子 之 间 的 相互 作用 而 不 是 单个 分 子 决 定 的 。 功 能 基因 组 学 的 一 
个 主要 任务 就 是 理解 蛋白 质 相互 作 用 规律 ,这 一 工作 对 阐明 蛋白质 功 能 并 进一步 理解 生物 
学 过 程 有 重要 意义 。 已 有 大 量 高 通 量 的 实验 方法 可 用 于 探测 蛋白 质 相 互 作用 。 用 实验 方法 
研究 蛋白 质 相 互 作用 既 费 时 又 费力 ,这 使 得 目前 拥有 的 相互 作用 数据 只 占 全 部 数据 的 一 小 
部 分 ,由 此 构建 的 相互 作用 网 络 也 极 不 完整 。 作 为 一 种 补充 ,发 展 理论 预测 方法 就 尤为 迫切 。 
从 蛋白质 结 构 出 发 预测 蛋白 质 -蛋白 质 相 互 作 用 (和 蛋白质 对 接 ) 能 够 揭示 它们 的 功能 机 制 以 
及 在 细胞 中 起 到 的 作用 。 现 有 的 预测 方法 有 基于 DNA 序 列 的 基因 近邻 法 、 基 因 融 合法 、 种 
系 轮廓 发 生 法 ,也 有 基于 蛋白 质 一 级 结构 的 方法 和 基于 蛋白 质 三 级 结构 的 方法 。 主 要 方法 
如 下 : 

L 同 源 建 模 ”将 已 知 三 维 结构 的 蛋白 质 复合 物 相 互 作用 的 信息 应 用 到 与 组 成 该 复合 
物 的 氨基 酸 序列 的 同 源 蛋 白质 间 。Aloy 等 建立 了 这 个 方法 ,他 们 通过 评估 同 源 蛋 白 家 族 中 
已 知 3D 结 构 的 复合 物 的 接触 点 特征 ,给 出 判断 ,并 最 终 用 实验 的 方法 进行 验证 ,准确 率 达到 
T 6596. 

2. 计算 机 模拟 分 子 对 接 早期 的 分 子 对 接 方法 用 分 子 力学 方法 或 者 量子 化 学 方法 计 
算 小 分 子 之 间 的 识别 ,在 一 些 分 子 模拟 软件 包 中 也 含有 分 子 对 接 的 模块 。 但 是 由 于 算法 和 
计算 机 处 理 能 力 的 限制 ,早期 的 对 接 方 法 较 难处 理 含有 大 分 子 的 分 子 对 接 过 程 。1995 年 由 
Accelrys 公 司 开发 的 计算 化 学 软件 Affinity 上 市 ,这 是 第 一 个 可 以 进行 有 大 分 子 参与 的 分 子 对 
接 过 程 的 商业 化 分 子 对 接 软件 。 此 后 ,商业 化 和 免费 的 分 子 对 接 软件 层出不穷 。 现 在 应 用 
中 的 分 子 对 接 软 件 涵盖 了 刚性 对 接 、 半 柔性 对 接 、 柔 性 对 接 等 各 种 对 接 方法 ,在 能 量 优化 方 
面 则 使 用 了 人 工 神经 网 络 .遗传 算法 .模拟 退火 禁忌 搜索 、 局 部 搜索 等 各 种 方法 。 目 前 的 分 
子 对 接 方法 是 研究 小 分 子 与 大 分 子 相互 作用 模式 .生物 大 分 子 间 识 别 .分 子 自 组 装 . 超 分 子 
结构 等 课题 的 常用 方法 之 一 。 

3. 基于 二 级 结构 ”统计 计算 蛋白 复合 体 相互 作用 结合 区 域内 不 同 二 级 结构 及 超 二 级 结 
构 出 现 的 频次 ,所 统计 的 二 级 结构 主要 分 为 三 类 : a 螺旋、B 折 释 、 无 规则 卷曲 ; 超 二 级 结构 
是 在 二 级 结构 基础 之 上 的 结构 类 型 ,工作 中 主要 采用 四 种 分 类 类 型 : a 拐角 、a RHE. BR 
3 . 拱 形 结构 。 在 统计 数据 的 基础 上 计算 不 同 结构 类 型 出 现在 相互 作用 结合 区 的 相对 倾向 
值 ,并 以 此 对 蛋白 质 亚 基 对 进行 打分 ,将 打分 分 值 作为 特征 值 输入 支持 向 量 机 构建 模型 ,对 
蛋白 质 亚 基 相互 作用 进行 预测 。 

4. 基于 结构 域 ”蛋白 质 之 间 通 过 特异 性 的 结合 才能 够 发 生 相 互 作 用 ,而 这 些 结合 部 位 
就 是 结构 域 ,因此 ,一 种 现在 比较 流行 的 思想 是 认为 蛋白 质 间 的 相互 作用 是 由 和 蛋白质 结构 域 
之 间 的 相互 作用 导致 的 。 有 学 者 提出 假设 ,结构 域 组 合 间 的 相互 作用 是 蛋白 质 相 互 作用 中 
的 基本 单元 。 由 于 考虑 到 了 结构 域 间 相 互 作用 导致 蛋白 质 间 相 互 作 用 的 所 有 可 能 方式 , 预 
测 效果 有 了 显著 提高 。 但 是 该 模型 仍然 存在 缺陷 , 即 为 了 获取 待 预测 样本 中 所 有 结构 域 组 
合 对 相互 作用 的 概率 ,需要 大 量 蛋 白质 相互 作用 数据 以 及 相应 蛋白 质 的 结构 域 注释 信息 ,而 
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训练 样本 的 不 足 将 导致 无 法 获取 所 有 结构 域 组 合 对 的 统计 特征 ,从 而 只 能 评价 部 分 蛋白 质 
对 的 相互 作用 关系 。 使 用 支持 向 量 机 分 析 结 构 域 组 合 对 序列 的 氨基 酸 理 化 性 质 得 到 其 序列 
特征 值 ,同时 采用 统计 分 析 的 方法 获取 其 频率 特征 值 ,最 后 通过 融合 上 述 两 种 特征 估计 该 结 
构 域 组 合 间 发 生 相 互 作用 的 可 能 性 ,并 以 此 预测 蛋白 质 间 的 相互 作用 关系 。 

从 已 知 的 蛋白 质 相 互 作用 中 预测 有 哪些 结构 域 间 存在 相互 作用 ,然后 再 利用 预测 结 
对 待 测 蛋 白质 对 之 间 的 相互 作用 情况 进行 判别 。Gomez 等 首先 提出 来 了 一 个 简单 的 吸引 模 
型 ,并 定义 了 蛋白质 相 互 作用 的 概率 与 结构 域 相 互 作用 的 概率 关系 模型 。 随 后 ,他们 又 对 该 
模型 进行 了 改进 ,提出 来 了 AR 模型 ,在 Pfam 数 据 库 上 得 到 了 较 好 的 测试 仪 结果 。 

Deng 等 使 用 极 大 似 然 估计 MLE 的 方法 来 寻找 结构 域 间 的 相互 作用 ,并 反 过 来 预测 重 白 
质 间 的 相互 作用 ,该 方法 能 够 对 不 完整 的 数据 集 和 数据 集中 的 错误 进行 有 效 的 处 理 。Liu 等 
将 MLE 方 法 进行 了 改进 ,使 其 能 够 利用 多 个 物种 中 的 蛋白 质 相互 作用 数据 ,提高 了 结构 域 相 
互 作用 预测 的 性 能 。Hayashida 等 将 MLE 中 的 问题 进行 了 重新 定义 ,使 用 线性 规划 的 方法 , 通 
过 最 小 化 训练 集中 观测 的 相互 作用 与 预测 的 相互 作用 之 间 的 误差 来 对 结构 域 间 的 相互 作用 
进行 预测 ,得 到 了 较 好 的 预测 效果 。Guimaraes 等 同样 使 用 了 线性 规划 方法 ,但 其 假定 蛋白 
质 间 的 相互 作用 符合 简约 原则 ,并 以 此 建立 线性 规划 的 约束 条 件 。 

Huang 等 将 结构 域 相互 作用 问题 转化 为 集合 覆盖 问题 ,并 提出 了 相应 解决 方案 。Singhal 
等 使 用 遗传 算法 ,利用 参数 优化 的 思想 计算 结构 域 间 的 相互 作用 概率 。Riley 等 使 用 结构 域 
对 排除 分 析 方 法 ,从 多 个 物种 的 蛋白 质 相 互 作用 数据 中 寻找 潜在 的 结构 域 相互 作用 对 。 

还 有 一 种 从 和 蛋白质 域 信息 出 发 ,分 析 互 作 蛋 白质 对 和 不 互 作 蛋 白质 对 各 自 的 特征 模式 ， 
基于 极 大 焙 聚 类 算法 分 析 并 预测 蛋白 质 相互 作用 的 方法 ,并 采用 von Mering 数 据 集 和 DIP 数 据 
库 中 的 数据 测试 了 该 方法 ,其 预测 的 敏感 性 和 特异 性 分 别 为 92% 和 94%。 基 于 上 述 方 法 , 开 
发 了 网 页 工具 用 于 预测 蛋白 质 对 的 相互 作用 ( http: /219.217.238.183 : 7001/prepi/index.jsp )。 

5. 基于 结构 特征 的 方法 ”此 方法 注重 蛋白 质 间 的 物理 相互 作用 ,包括 相互 作用 界面 
(interface ) 及 相互 作用 位 点 (interaction sites ) 的 预测 .蛋白 质 相 互 作用 界面 指 的 是 两 条 以 
非 共 价 键 形 式 ( non-covalent ) 结 合 的 多 肽 链 之 间 的 共同 区 域 , 主 要 由 对 蛋白 质 结 合 起 关键 
作用 的 .进化 速率 低 于 蛋白 质 表 面 其 他 部 分 的 残 基 所 组 成 。Aytuna 等 人 在 待 预测 数据 集中 
寻找 与 已 知 蛋 白质 相互 作用 界面 的 互补 对 ( complementary pairs ) 结构 相 类 似 的 表面 区 域 ， 
通过 蛋白质 三 级 结构 比 对 以 及 热点 ( hot spots ), 一 种 突变 产生 高 能 量 且 对 和 蛋白质 间 相 互 作 
用 的 杀 和 性 、 稳 定性 起 重要 作用 的 残 基 匹 配 的 方法 推理 预测 PPI。 例 如 ,已 知 界面 A 与 B 存 
在 相互 作用 ,而 表面 区 域 a,b 分 别 与 A,B 的 结合 位 点 在 结构 上 具有 相似 性 ,从 而 推理 a 与 b 也 
存在 相互 作用 ,结果 表明 该 方法 具有 较 高 的 可 信和 度 。 然 而 ,三 维 结构 已 知 的 蛋白 质数 量 的 
有 限 性 限制 了 该 方法 的 应 用 。Nussinov 研 究 小 组 先后 于 1996 年 和 2004 年 构造 了 蛋白 质 相 
互 作用 界面 的 非 元 余数 据 集 , 界 面 数量 由 最 初 的 351 增 加 至 3799 ,提高 了 该 种 方法 的 预测 
精度 。 此 外 , Gomez、Deng 等 人 通过 观察 两 蛋白 质 所 含有 的 结构 域 之 间 是 否 存 在 吸引 或 排 
斥 作 用 来 预测 PPI。 他 们 利用 Pfam 数 据 库 提供 的 域 信息 ,分 别 采用 AM( association method ) 
和 MLE( maximum likelihood estimation ) 方 法 ,估算 相互 作用 和 蛋白质 对 所 含 的 结构 域 , 并 计 
算 结 构 域 信息 的 显著 性 和 概率 值 ,以 此 作为 PPI 存 在 的 标签 一 一 这 在 本 质 上 是 一 个 机 器 学 
习 过 程 。 预 测 得 到 的 相互 作用 蛋白 质 对 其 编码 基因 表达 谱 具 有 强 相关 性 ,证 明了 该 方法 
的 有 效 性 。 





第 四 章 S 199 





CHAPTER 4 PROTEIN STRUCTURE ANALYSIS 


6. 常用 的 在 线 分 析 工 具 

( 1) PREPPI( http: //bhapp.c2b2.columbia.edu/PREPPI/ ); 整合 结构 与 非 结构 信息 预测 蛋 
白质 互 作 的 网 络 工具 。 

( 2 ) 3DID( http: //3did.irbbarcelona.org/ ): 高 通 量 三 维 结构 已 知 和 蛋白 质 的 结构 域 互 作 数 
据 库 。 

(3 ) cons-PPISP( http: //pipe.scs.fsu.edu/ppisp.html ): 用 神经 网 络 方法 预测 蛋白 质 互 作 的 
网 站 。 输 入 一 个 蛋白 质 的 结构 ,可 以 预测 其 与 另 一 个 蛋白 质 结合 的 位 点 残 基 。 

(4 ) InterPreTS( http: //www.russelllab.org/cgi-bin/tools/interprets.pl ): 通过 三 维 结构 预测 
互 作 的 在 线 工具 。 

[ 例 4-6 ] 用 PREPPI 预 测 蛋 白质 互 作 

(1 ) 打 开 网 址 :(http: //bhapp.c2b2.columbia.edu/PREPPT ) (图 4-28 ). 
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PREPPI SEARCH 





Search PREPPI for protein-protein interactions (PPI) involving your protein of 
interest, by protein UniProt accession number (e.g. P03989), gene name (e.g. 
PRNP), protein name (e.g. Histone H2A), or five letter code of PDB and chain ID 
(e.g. 1AKJD). Use "P1:P2" or "P1<=>P2" (e.g. PPARg:PAX) to search for a PPI 
directly. 


Please refer to the Help page for more information of using PREPPI and 
interpretation of results. 


Positive Reference PPI(protein-protein interaction) datasets for manuscript 
"structure-based prediction of protein-protein interactions on a genome- 
wide scale" can be downloaded now. 


— T 
图 4-28 PREPPI 主 页 


(2 ) 在 搜索 框 中 输入 要 查询 和 蛋白质 的 名 字 、Uniprot ID 或 对 应 基因 的 名 字 , 如 : 输入 
HLAB 基 因 对 应 的 蛋白 质 HLA I 型 组 织 相 容 性 抗原 的 Uniprot ID "P03989" ,点 击 "SEARCH", 
可 得 到 与 其 互 作 蛋 白质 的 信息 列表 ,结果 如 下 (图 4-29 )。 

结果 包括 所 查询 和 蛋白质 HLA I 型 组 织 相 容 性 抗原 的 Uniprot ID 编码 蛋白 质 的 基因 名 E 
白质 名 、 蛋 白质 功能 信息 ,同时 还 给 出 了 被 预测 的 与 其 互 作 的 蛋白 质 的 一 些 统计 信息 如 : 预 
测 的 高 置信 和 度 的 互 作 蛋 白质 125 个 (得 分 大 于 0.5 )、 所 有 预测 的 互 作 和 蛋白 质 298 个 (得 分 大 于 
0.1 ), 在 数据 库 中 存在 的 互 作 蛋 白质 12 个 。 结 果 列 表 中 的 每 一 行 是 被 预测 为 与 HLA 
织 相 容 性 抗原 互 作 的 各 和 蛋白质 的 信息 , “Prediction code” 列 标明 了 确定 该 互 作 的 信息 
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PREPPI Pos989 — an: PREPPI SEARCH 


Query protein P03989 
Gene names HLA-B HLAB 
Protein name HLA class I histocompatibility antigen, B-27 alpha chain i i era oa a 


All predictions (Score»0.1): 298 
Function Involved in the presentation of foreign antigens to the PS b i 
immune system. Interactions in database: 12 


Statistics 


Interactor Gene names Organism Prediction code PREPPILR Database LR Final prob. Databases References 





61769  B2M CDABPO092 HDCMA22P human Genmecpe 21096 4625.64 1.00 i or ina] 
P01732 CD8A MAL human fc — mc Pp 3455.46 $57.82 1.00 = w 
QSNHL6 LILRB1 ILT2 LIR1 MIR7 human fc E mc Pp 2767.88 957.82 .00 = u 
Q8N423 LILRB2 ILT4 LIR2 MIR10 human Mice mc Pp 2293.31 987.22 1.00 区 t 
Q95460 MRI human Bee "c 32199.5 VA 9.28 
Q30201 HFE HLAH human BG emc p 7463.8 NA 93 
P30491 HLA-B HLAB human foe mc p 7325.09 WA 0.92 
P30460 HLA-B HLAB human Mas «c» 7328.09 NA 0.32 
P30481 ^ HLA-BHLAB human JG e mc pe 7328.09 HA 0.82 
P30483 HLA-B HLAB human We E mc ep 7328.09 NA 0.32 
P30493 HLA-B HLAB human Wë E "c 7328.09 NA 0.92 
P30490 HLA-B HLAB human JG e mc Pp 7328.08 NA 0.92 
029718 HLA-B HLAB human 国人 se mc Pp 7322.08 WA 0.92 
P30685  HLA-BHLAB human PG e mc Pp 7328.09 NA 0.32 
P30475  HLA-BHLAB human PG E "c 7328.09 NA 0.92 
P30479  HLA-BHLAB human Mc E Mc 7328.09 NA 0.92 
P30484 HLA-B HLAS human Ge mc p 7328.09 NA 2 
p30462 HLA-B HLAB human Mace mc p 7328.09 NA 0.92 
P30493 HLA-B HLAB CDABPO067 human Ml E mc p 7328.09 HA 0.92 
Q29940 HLA-B HLAB human Bc EMEP 7328.09 NA 0.32 
P18464 HLA-B HLAB human MEG E mc p 7328.09 NA 0.92 


图 4-29 查询 有 蛋白质 P03989 的 预测 有 蛋白质 互 作 结果 

其 中 Ss 表示 结构 信息 , G 表 示 功 能 信息 , C 表 示 共 表达 , P 表 示 系 统 发 育 , E 和 M 只 在 酵母 数据 
中 有 ,分 别 表示 蛋白质 必 要 性 和 MIPS 信 息 。 字 母 上 的 颜色 表明 其 贡献 程度 ,颜色 越 深 页 献 越 
Ko “PREPPI LR” 列 表示 用 贝 叶 斯 网 络 得 到 的 整合 “Prediction code” 列 中 不 同 得 分 的 计算 
预测 LR。“database LR” 表 示 实 验 得 到 的 互 作 在 各 数据 库 中 的 整合 LR。 将 LR 值 标准 化 得 到 
"Final Prob.” 列 中 的 值 。 最 后 两 列表 明 储 存 该 互 作 的 数据 库 及 证 实 文献 。 由 结果 中 可 以 观 
察 到 ,基于 结构 信息 或 以 结构 信息 为 主 预 测 的 互 作 蛋 白质 具有 较 高 的 置信 和 度 ,并 且 其 互 作 关 
wwe 如 结果 图 中 列表 显示 的 前 4 个 蛋白 质 。 

(3 ) 可 直接 输入 “蛋白质 1 : 和 蛋白质 2” 或 “蛋白 质 1<=> 和 蛋白 质 2” 查询 和 蛋白质 1 与 蛋白 质 
2 的 互 作 情况 。 

例如 ,在 搜索 框 中 输入 一 对 蛋白 质 过 氧化 物 酶 体 增殖 物 活性 受 体 和 配对 蛋白 “PPARG: 
PAX9” ,结果 见 图 4-30。 


DOWNLOADS HELP ABOUT HONIG LAB. 


PREPPI PPARG PAX9 Nn PREPPI SEARCH 
InteractorA P37231 Interactor B P55771 
Organism HUMAN Organism HUMAN 
Gene names PPARG NR1C3 Genenames  PAX9 
Protein name Peroxisome proliferator-activated receptor gamma Protein name Paired box protein Pax-9 
Receptor that binds peroxisome prolüiferators such as Transcription factor required for normal development of 
Purution hypolipidemic drugs and fatty acids. Once activated by a Function thymus, parathyroid glands, ultimobranchial bodies, teeth, 
ligand, the receptor binds to a promoter element in ... view skeletal elements of skull and larynx as well as distal limbs 
more (By ... view more 





Interactor A Organism A Interactor B Organism B Prediction code PREPPILR Database LR Final Prob. Databases References 


P37231 HUMAN P55771 HUMAN SG E M C P 10.47 9 0.02 


图 4-30 查询 有 蛋白质 对 PPARG 和 PAX9 互 作 结 果 
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图 4-30 中 分 别 列 出 了 两 个 互 作 子 蛋白 质 的 Uniprot ID tEAM AY 、 蛋 白质 名 
和 和 蛋白 质 的 功能 信息 。 ROME nan 结果 表明 蛋白 质 PPARG 和 PAX9 ,没有 基于 
结构 的 互 作 信息 ,只 有 基于 功能 互 作 的 信息 。 其 预测 得 分 为 0.02 ,这 表明 它们 互 作 的 可 能 性 
不 大 。 








第 五 节 
和 蛋白质 的 结构 异常 与 疾病 


Section5 Protein Structure and Diseases 








当 重 白质 保守 位 点 发 生性 质 截然 相反 的 突变 时 ,和 蛋白质 的 高 级 结构 可 能 被 显著 改变 

影响 其 功能 。 男 外 ,蛋白质 序 列 不 变 而 高 级 结构 发 生 显 著 改 变 , 例 如 变性 ( denaturation ) 

或 错误 折 倒 ( misfolding ), 也 会 造成 蛋白 质 功能 的 显著 改变 ,特殊 情况 下 就 会 造成 病理 生理 
现象 。 


一 、 蛋 白质 序列 变化 引发 疾病 》》 


分 子 病 ( molecular disease ) 是 1949 年 由 Pauling 提 出 的 , 现 已 发 现 上 百 种 。 是 指 因 某 种 蛋 
白质 分 子 一 级 结构 中 的 氨基 酸 残 基 序列 与 正常 有 所 不 同 而 发 生 的 遗传 病 。 如 : BRR A LE 
血 症 ( sickle-cell anemia ) 是 一 种 常 染色 体 隐 性 遗传 疾病 ,患者 的 红细胞 在 缺 氧 状态 下 变 成 
灸 刀 形 。 起 因 是 体内 合成 血红 蛋白 的 基因 发 生 异 常 ,使 人 血红 蛋白 B 亚 基 的 纺 氢 酸 被 谷 氨 
酸 所 取代 ,只 是 一 个 氨基 酸 之 差 , 则 使 患者 的 红细胞 在 缺 氧 状态 下 变 成 灸 刀 形 , 异 常 血红 蛋 
白 ( HbS ) 从 球状 变 为 纤维 状 ,而 且 易 于 在 红细胞 中 析出 。 在 一 段 时 间 内 ,此 纤维 状 的 HbS 当 
氧 分 压 高 时 , 仍 能 恢复 球状 ,但 在 氧 分 压 降低 时 HbS 又 呈 纤 维 状 ,这 样 几经 恢复 ,使 红细胞 变 
得 很 脆弱 , 极 易 碎 裂 而 发 生 溶血 性 贫血 。 当 个 体 携带 两 个 突变 的 B 亚 基 基因 时 ,会 患 馈 状 细 
胞 贫血 症 。 单 一 拷贝 会 引起 镰 状 细胞 特征 ,但 通常 无 症状 表现 。 编 码 B 亚 基 的 基因 定位 于 
染色 体 11-a 区 ,含有 许多 B 球 蛋白 基因 簇 , 此 区 的 多 态 性 与 疾病 的 严重 程度 有 直接 的 关系 。 





二 、 蛋 白质 折叠 错误 引发 疾病 》》 


和 蛋白质 构 型 的 改变 是 蛋白 质 错 误 折 寿 的 主要 原因 。 一 般 而 言 ,天然 构 象 主要 由 a -螺旋 
和 无 规 卷曲 组 成 ,而 错误 折 伙 的 构象 富 含 B -折合 结构 。 例 如 : 亨廷顿 舞蹈 病 的 发 病 机 制 主 
要 与 多 聚 谷 氨 酰 胶 的 延长 有 关 , 当 谷 氮 酰 胺 重复 序列 增长 时 ,可 促使 蛋白 质 构 型 从 随机 缠绕 
(random coil JI] B - 折 登 转化 。 聚 合体 是 由 反 疝 排列 的 B - 折 友 不 断 增 加 形成 的 , a -螺旋 /B - 
折 炙 的 结构 转换 导致 琉 水 基 团 暴露 而 亲 水 基 团 埋 在 蛋白 质 内 部 ,引起 蛋白 质 分 子 之 间 形 成 
交叉 的 B -HA B - 折 炙 之 间 由 侧 链 和 主 链 中 的 氧 键 将 其 连接 在 一 起 ,多 聚 谷 氨 酰胺 
发 生 交 联 , 洲 解 度 降 低 , 最 后 在 胞 质 中 形成 聚合 体 或 在 核 内 形成 包涵 体 。Htt 聚 集体 具有 细 
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胞 毒性 ,可 封闭 转录 因子 ,抑制 泛 素 -和 蛋白酶 体系 统 , 导 致 神经 元 死亡 。 

及 病毒 病 是 一 种 由 及 病毒 引起 的 与 痴呆 相关 的 神经 退行 性 疾病 ,可 在 人 和 动物 间 传 播 。 
及 和 蛋白 ( prion protein, PrP ) 是 一 种 能 够 在 正常 的 哺乳 动物 的 神经 细胞 表达 的 蛋白 ,人 的 PrP 
基因 位 于 20 号 染色 体 ,编码 产生 的 蛋白 称 为 PrPC, 由 GPI 锚 固定 在 细胞 表面 。 在 基因 突变 
或 环境 变化 或 感染 Scrapie 等 条 件 下 ,蛋白 质 的 组 成 氨基 酸 顺 序 不 变 , 但 它 的 空间 结构 可 发 
生变 化 ,螺旋 结构 减少 ，B 片 层 结 构 增 加 , 称 之 为 scrapie associated prion protein ( PrPSc ), 其 
性 质 也 随 之 发 生变 化 ,有 细胞 毒 作用 ,可 引起 神经 变性 、 胶 质 细 胞 增生 和 细胞 外 淀粉 样 沉积 
等 病变 。 其 变化 形式 为 : PrPS 以 a 螺旋 结构 为 主 ，B TBM 3%. PrPSCHP BIE 443%, 
易于 聚集 ,形成 具有 细胞 毒性 的 高 分 子 量 的 不 溶性 复合 物 的 沉积 而 引起 病变 (图 4-31 )。 





Garrett & Grisham: Biochemistry, 2/e 
Unnumbered Figure p.979 


(b) 





Saunders College Publishing 


图 4-31 EL 4Prink OSH k EHK; 病变 的 Prion 和 蛋白 含有 更 多 的 B 折 全 
引 自 于 : Garrett & Grisham, Biochemistry,2nd ed.,1998 : Schematic view of the two structures of 
a protein involved in the neurodegenerative disease of sheep, scrapie. 


阿尔 茨 海 默 病 ( Alzheimer’ s disease ) 患者 体内 特别 是 脑 内 的 淀粉 样 重 白 浓度 显著 升 高 ， 
寺 别 是 42 个 氨基 酸 残 基 的 片段 含量 不 成 比例 的 升 高 , B rS T BUR IDE D DE EYE DE 
块 。 神 经 纤维 缠 结 主要 由 高 度 磷 酸化 的 微 管 相关 的 tau 和 蛋白 异常 折 和 登 聚集 而 成 。 通 过 对 错 
误 折 到 机 制 的 研究 ,可 以 明确 病理 机 制 , 使 临床 方案 更 具有 效 性 和 精确 性 ,对 遗传 学 和 医学 
研究 具有 一 定 意义 。 


三 疾病 过 程 中 蛋白 质 的 相互 作用 >> 


蛋白 质 的 高 级 结构 决定 了 其 在 生物 体内 的 功能 ,多 个 蛋白 质 发 挥 作用 时 常 需要 与 其 他 
蛋白 质 协 同 作 用 ,不 同 蛋 白质 之 间 形 成 复合 体 ( complex )。 每 个 蛋白 质 可 以 看 成 复合 体 的 一 
个 亚 基 ( subunit ), 亚 基 间 相互 作用 ,形成 紧密 的 复合 体 结构 或 共同 组 成 复合 体 的 活性 中 心 。 
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当 和 蛋白 质 序 列 变异 或 发 生 错 误 折 和 县 等 结构 突变 时 ,正常 的 蛋白 质 结构 互 作 缺 失 , 引 起 特定 的 
功能 或 表 型 异常 ,就 会 引发 疾病 。 

大 量 关 于 p53 各 方面 功能 及 其 在 人 类 肿瘤 中 表达 的 突变 和 蛋白质 的 信息 , 曾 明 了 p53 在 癌 
症 发 病 机 制 中 的 重要 作用 。p53 是 一 种 四 聚 体 ,单独 一 个 亚 基 的 突变 就 会 影响 整个 复合 物 的 
活性 ,导致 DNA 结 合 活性 的 减弱 。 目 前 已 经 发 现 超过 14 000 个 与 肿瘤 相关 的 p53 突变 。 但 人 
类 腺 病毒 的 E6 和 蛋白 可 通过 与 p53 的 Arg72 高 亲 和 性 地 相互 作用 ,同样 可 使 p53 蛋 白质 失去 功 
能 ,阻止 它 对 损伤 DNA 的 修复 ,从 而 导致 子宫 癌 的 发 生 。 

通过 研究 霍乱 毒素 的 结构 及 功能 ,发 现 其 毒素 是 87kDa 的 六 聚 体 ( 亚 基 组 成 为 AB; ) 蛋白 
质 , 它 通过 B 亚 基 结 合 在 CM1 的 神经 节 苷 酶 上 ,并 将 A 亚 基 通 过 受 体 介 导 的 胞 吞 作用 转运 入 
膜 内 。 在 细胞 内 ,二 硫 键 发 生还 原 性 断裂 ,从 A 亚 基 上 释放 一 个 包含 195 个 氨基 酸 残 基 的 片 
段 ,此 片段 催化 ADP- 核 糖 由 NDP' 转 移 至 异 源 三 聚 体 Gs 蛋 白 G。 亚 基 的 Arg187 侧 链 上 ,这 种 糖 
基 化 过 程 持续 地 激活 腺 苷 酸 环 化 酶 同时 抑制 C。 的 GTP 酶 活性 ,从 而 使 细胞 内 cAMP 水 平 剧烈 
增高 ,导致 肠 道 细胞 激活 钠 泵 ,分 泌 Na’。 为 抵消 握 化 物 , 水 与 碳酸 氨 盐 也 被 分 泌 出 去 ,最 终 
的 网 络 效 应 导致 大 量 水 和 电解 质 缺 失 , 引 发 疾病 ,导致 脱水 症 ,最 终 可 引起 死亡 。 男 外 , 禽 流 
感 病毒 能 否 感染 人 类 取决 于 它 的 血 凝 素 (病毒 表面 的 一 种 蛋白 ) 是 否 能 够 与 呼吸 道 多 糖 受 
体 结合 。 人 研究 人 员 借 助 NIGMS 的 一 个 专门 数据 库 ( consortium for functional glycomics ), 进行 
蛋白 质 与 不 同类 型 糖分 子 相互 作 用 的 研究 。 人 类 呼吸 系统 细胞 中 有 alpha2-6 类 的 多 糖 受 体 ; 
禽类 呼吸 系统 细胞 中 则 是 alpha2-3 类 多 糖 受 体 。 人 类 呼吸 系统 细胞 中 的 alpha2-6 类 多 糖 受 
体 有 两 种 形状 ,分 别 为 伞 形 和 圆锥 形 。 病 毒 可 与 圆锥 形 alpha2-6 受 体 结合 ,但 人 类 呼吸 道中 
这 种 受 体 远 远 小 于 伞 形 受 体 ,所 以 感染 能 力 差 。 因 此 ,流感 病毒 如 果 要 感染 人 类 ,必须 与 企 
形 的 alpha2-6 受 体 结合 。 可 以 寻找 那些 已 经 进化 出 与 伞 形 alpha2-6 受 体 结合 的 病毒 ,并 针对 
其 开发 新 疫苗 ,以 便 应 对 可 能 暴发 的 大 规模 流感 。 随 着 蛋白 质 精 细 结 构 的 逐步 解析 ,从 蛋白 
质 结构 互 作 的 角度 来 研究 和 探索 复杂 疾病 的 潜在 发 生机 制 ,进而 进行 药物 研发 具有 重要 的 
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Section6 Application of Disease 


一 、 蛋 白质 结构 信息 在 类 风湿 性 关节 炎 致 病 基因 挖掘 中 的 应 用 >> 


类 风湿 性 关节 炎 是 一 种 复杂 的 炎症 性 疾病 ,主要 与 关节 .自身 免疫 功能 以 及 遗传 因素 有 
关 。 治 疗 类 风湿 性 关节 炎 的 重要 挑战 是 找到 一 种 有 效 的 筛选 方法 ,寻找 到 与 已 知 疾病 基因 
有 相似 结构 和 功能 的 候选 风险 基因 ,并 利用 它们 开发 新 技术 用 于 检测 ,诊断 和 治疗 。 和 蛋白 质 
是 生物 体重 要 的 组 成 部 分 ,并 参与 几乎 每 一 细胞 过 程 。 大 部 分 蛋白质 折 双 成 独特 的 结构 ,以 
便 在 不 同 功 能 集中 的 具体 特性 做 出 特定 的 贡献 。 致 病 蛋 白质 与 致 病 基因 往往 是 通过 相似 的 
序列 和 结构 相关 联 的 ,所 以 候选 基因 可 以 通过 序列 及 与 已 知 致 病 基 因 相 似 的 晶体 结构 筛选 
出 来 。 本 案例 通过 采用 统计 遗传 学 贝 叶 斯 关联 分 析 方 法 和 模式 识别 的 方法 ,针对 已 知 致 病 
基因 与 非 致 病 基 因 编 码 蛋 白质 在 序列 和 结构 特征 上 的 差异 ,来 预测 类 风湿 性 关节 炎 的 致 病 
基因 。 并 从 家 族 功能 特性 、GO 功 能 一 致 性 和 KEGG 通 路 富 集 三 方面 对 预测 的 致 病 基因 进行 
评价 ,以 期 找 出 与 类 风湿 性 关节 炎 疾 病 发 病 机 制 密切 关联 的 疾病 基因 

1. 实验 数据 资源 

从 在 线 GAW16( http: //www.gaworkshop.org/ ) 中 下 载 ,868 个 类 风湿 性 关节 炎 样 本 和 1194 
个 正常 样本 的 SNP 基 因 型 频率 数据 。 

人 类 基因 的 序列 信息 .位 点 信息 来 自 NCBIC http: //www.ncbi.nklm.nih.gov/ ) 的 基因 组 数据 库 。 

疾病 基因 和 疾病 位 点 信息 来 自 OMIM( http: //www.ncbi.nlm.nih.gov/omim ) 数据 库 。 

人 类 蛋白质 的 结构 数据 来 自 PDB( http: //www.resb.org/pdb/home/home.do ) 数据 库 及 
targetDB 数据 库 ( http: //targetdb.pdb.org/ )。 

功能 注释 和 功能 鉴定 分 析 资 源 主要 采用 PIRSF( http: //pir.georgetown.edu/pirsf ) 中 的 功能 
分 类 、GO( http: //www.geneontology.org/ ) 注释 体系 和 KEGG 数 据 库 ( http: //www.genome.jp/kegg/ )- 

2. 实验 方法 

( 1) 支持 向 量 机 ( support vector machine, SVM ) 分 类 器 中 分 类 集合 的 构建 ; 以 下 载 的 
GAW16 中 检测 的 类 风湿 性 关节 炎 的 SNP 群 体 数 据 作为 研究 对 象 2062 个 样本 中 含有 433 766 个 
SNP, 对 基因 组 层面 的 贝 叶 斯 关联 分 析 得 到 疾病 与 对 照样 本 差异 显著 的 SNP 集 ,针对 集合 中 
的 每 一 个 SNP, 根 据 其 在 NCBI 数 据 库 中 对 应 染色 体 的 物理 位 置 ,寻找 在 其 上 下 游 500kb 范 围 
内 的 基因 ,得 到 的 基因 集 定义 为 候选 疾病 基因 集合 , 共 4402 个 基因 ,作为 SVM 分 类 需 的 检验 
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SE; 从 OMIM 疾 病 数据 库 得 到 的 类 风湿 性 关节 炎 相 关 疾 病 基 因 集 , 共 335 个 基因 ,作为 SVM 分 
类 器 的 阳性 集 ( 致 病 基 因 集 ); 假定 在 全 基因 组 中 ,除去 阳性 集 和 检验 集 的 集合 为 非 致 病 集 ， 
共 得 到 28874 个 基因 ,用 该 集合 作为 SVM 分 类 器 的 阴性 集 。 

(2 )SVM 分 类 器 特征 的 确定 : 提取 蛋白质 的 结构 特征 共 28 维 ( 见 表 4-12 ), 在 提取 特征 的 
前 20 维 为 蛋白 质 一 级 结构 特征 ,21~28 维 为 蛋白 质 二 级 结构 特征 。 用 一 级 二 级 结构 组 合 特征 
构建 SVM 分 类 器 。 


表 4-12 蛋白 质 二 级 结构 的 二 级 特征 维 数 ,名 称 及 其 表达 的 意义 


特征 维 数 特征 名 称 特征 含义 

1-20 C Composition of the 20 amion acid residues 
21 a Cell length a in Angstroms 
22 b Cell length b in Angstroms 
23 c Cell length e in Angstroms 
24 alpha Cell angle alpha in degrees 
25 beta Cell angle beta in degrees 
26 gamma Cell angle gamma in degrees 
27 helical Percent of helical in protein sequence 
28 Beta sheet Percent of beta sheet in protein sequence 


(3 ) 分 类 器 的 确立 : 在 PDB 数据 库 和 target DB. 数据 库 中 分 别针 对 候选 基因 集 , 非 致 病 基 
因 集 及 已 知 致 病 基 因 集 ,用 网 页 文本 挖掘 的 方法 ,筛选 保留 具有 28 维 特征 的 蛋白 质 ,得 到 已 
知 致 病 集 574 个 蛋白 质 ,候选 集 2664 个 蛋白 质 , 非 致 病 集 2385 个 蛋白 质 。 

采用 训练 集 : 已 知 致 病 集 ( 阳性 集 ) 和 非 致 病 集 (阴性 集 ), 用 5 倍 交叉 证 实 来 评估 由 一 级 
二 级 组 合 特征 构建 的 SVM 分 类 器 。 通 过 对 1000 次 分 类 结果 的 统计 ,发 现 应 用 组 合 特征 的 准 
确 率 为 89%。 最 终 选 择 此 组 合 特征 构建 的 SVM 分 类 器 ,作为 对 检验 集 进行 预测 的 分 类 器 。 

3. SVM 分 类 器 筛选 结果 分 析 及 评价 

(1 ) 预测 的 致 病 基 因 : 通过 应 用 蛋白 质 一 级 结构 和 二 级 结构 组 合 特征 分 类 器 对 检验 集 
的 2664 个 蛋 月 质 进 行 分 类 ,预测 得 到 候选 致 病 和 蛋白 质 ID 944 个 ,对 应 的 候选 致 病 基 因 495 个 。 

分 别 对 候选 致 病 基 因 集 (495 个 基因 ) 和 已 知 致 病 基 因 集 ( 335 个 基因 ) 进行 蛋白 质 功 能 
家 族 分 类 分 析 、GO 功 能 节点 富 集 分 析 和 KEGG 风 险 通路 分 析 。 选 取 与 类 风湿 性 关节 炎 已 知 
致 病 基 因 共 享 至 少 有 一 个 功能 注释 的 候选 基因 作为 评价 后 的 预测 的 致 病 基 因 , 即 : 对 于 495 
个 候选 致 病 基因 进行 评价 ,进一步 确定 了 146 个 预测 的 致 病 基 因 。 

(2 ) 预 测 致 病 基因 的 功能 分 析 : 在 PIR 数 据 库 中 筛选 已 知 致 病 基 因 集 和 预测 致 病 基 因 集 
所 属 的 家 族 ,包括 免疫 球 蛋 白 家 族 、Protein kinase domain 家 族 、SH3 domain 家 族 以 及 Ligand- 
binding domain of nuclear hormone receptor 家 族 等 。 以 免疫 球 蛋 白 家 族 为 例 (图 4-32 ), 可 以 发 
现 14 个 已 知 致 病 基 因 与 10 个 预测 致 病 基 因 在 该 家 族 上 富 集 ,这 体现 了 预测 基因 与 已 知 基 因 
在 该 家 族 功能 上 的 一 致 性 。 
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图 4-32 已 知 致 病 基 因 和 预测 的 致 病 基 因 在 Immunoglobulin 家 族 上 的 富 集 示意 图 
红色 节点 代表 预测 的 致 病 基 因 , 蓝 色 节 点 代表 已 知 致 病 基因 









immunog et domain 


应 用 GeneWebgestalt( http: //genereg.ornl.gov/webgestalt/ ) 在 线 分 析 软 件 研 究 146 个 预测 致 
病 基因 ,发 现 其 富 集 在 信号 转 导 .细胞 过 程 的 正 向 调节 免疫 系统 和 免疫 反应 等 功能 上 ,与 已 
知 致 病 基因 富 集 的 G0 功能 节点 一 致 。 预 测 致 病 基 因 集 和 已 知 致 病 基因 和 集 共 享 相同 的 KEGG 
通路 ,如 : 重要 的 通路 包括 细胞 因子 与 细胞 因子 受 体 互 作 通路 、JAK - STAT 信 号 通路 ,细胞 
黏附 分 子 和 MAPK 信 号 通路 等 ,而 且 这 些 富 集 的 通路 还 相互 紧密 连接 .相互 作用 ,一 起 参与 
传递 疾病 风险 (图 4-33 ). 
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图 4-33 通路 互 作 与 基因 通路 关系 图 
A. 类 风湿 关节 炎 通 路 互 作 图 ,每 一 个 绿色 节点 为 一 个 通路 , 边 代 表 互 作 ; B. 候选 基因 与 相应 通路 之 间 的 关 
系 , 橘 色 节 点 代表 通路 , 蓝 色 节 点 代表 已 知 致 病 基 因 ,粉色 节点 代表 预测 致 病 基 因 


(3 ) 预测 致 病 基 因 与 风湿 性 关节 炎 关 系 的 文献 证 实 : 以 免疫 球 蛋 白 家 族 为 例 ,通过 文献 
证 实 , 发 现 免疫 球 和 蛋白 家 族 、Protein kinase domain 家 族 、SH3 domain 家 族 以 及 Ligand-binding 
domain of nuclear hormone receptor 家 族 的 基因 大 都 与 类 风湿 性 关节 炎 的 发 生发 展 相 联系 。 最 
终 , 对 基因 评价 后 的 146 个 预测 的 致 病 基因 中 ,有 41 个 基因 得 到 了 很 好 的 文献 证 实 。 


二 、 蛋 白质 结构 转换 几率 与 疾病 的 发 生 》》 


在 生命 体 中 ,蛋白质 几乎 参与 所 有 的 生理 过 程 。 生 化 反应 要 求 相关 各 功能 团 处 于 一 定 
的 距离 内 ,因此 蛋白 质 通常 要 折 又 成 特定 的 结构 才能 执行 其 功能 。 一 旦 蛋白质 结 构 由 正常 
状态 转变 为 错误 状态 就 可 能 导致 疾病 的 发 生 。 由 于 蛋白 质 所 涉及 生理 过 程 的 广泛 性 ,错误 
折 友 就 成 为 了 引发 疾病 的 一 种 普遍 因素 。 与 蛋白 质 折 释 异常 有 关 的 疾病 ,其 触发 致 病 结 构 
变化 的 第 一 步 , 通 常 是 在 稳定 的 天 然 结 构 的 重要 区 域 发 生 错 误 折 番 。 这 破坏 了 蛋白质 的 正 
常 构象 ,显露 出 了 先前 被 隐藏 的 聚集 易 发 区 ,从 而 在 错误 折 释 途径 中 导致 了 后 续 错误 。 第 一 
阶段 的 位 置 可 被 认为 是 蛋白 质 的 开关 区 ,这 些 位 置 能 作为 药物 靶 点 有 助 于 阻碍 异常 折 符 通 
路 .并 防止 构象 疾病 的 发 生 。 

在 正常 的 蛋白 结构 中 ,通常 将 构成 蛋白 质 的 短 肽 归纳 为 两 大 类 别 。 一 类 以 螺旋 为 标志 
性 结构 , 另 一 类 以 B 折 秋 为 标志 性 结构 ,而 某 一 短 肽 只 属于 两 大 类 中 的 一 种 。 为 理解 触发 
蛋白 质 构象 疾病 的 相关 机 制 , 利 用 聚 类 分 析 方 法 ,综合 考虑 影响 蛋白 质 进化 的 突变 结构、 
力学 属性 等 诸多 因素 ,以 一 类 短 肽 转换 为 另 一 类 短 肽 的 概率 来 判别 该 短 肽 触发 致 病 性 结 
构 改变 的 能 力 。 这 种 预测 负责 致 病 性 结构 变化 起 始 交 换 区 的 算法 称 为 构象 疾病 开关 (CD_ 
SWITCH ) 算 法 。 

1. CD_SWITCH 算 法 的 实现 

第 一 步 : 将 一 个 查询 的 蛋白 质 视 为 连续 的 残 基 片段 ,以 15- 残 基 为 一 个 片段 , 沿 着 蛋白 
质 序列 滑动 一 个 15- 残 基 窗 口 ,查询 和 蛋白质 的 每 一 个 片段 作为 一 个 查询 多 肽 。 从 同 源 多 肽 关 
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系 图 ( GPR ) 中 确定 查询 多 肽 的 远程 同系 物 ( RHs )。 
构建 查询 多 肽 的 数据 库 [ ,数据 库 中 的 每 一 个 节点 设 有 一 个 条 目标 题 和 一 个 条 目 “ 索 
8|" (Index )。 对 于 每 一 个 查询 多 肽 i, 会 产生 一 套 RHs{T DP» r,e): 


RH,. 
Index , D, 5 IndeXpomologuel , IndeXpomotogue2 , IndEXpomologue3 9 ene 





Index pa ; Index uus Index uauuuos Index, uas «++ 

Index, 17 Indexy ope > DOOR da» dexhonalneaasy <- 

第 二 步 : 评估 螺旋 圈 区 和 折 秋 区 之 间 交 换 的 概率 

对 于 每 个 查询 多 肽 ,用 第 一 步 得 到 的 条 目 信 息 来 评估 查询 多 肽 结构 的 改变 的 倾向 。 对 
于 多 肽 的 每 一 个 15- 残 基 , 分 别 考 虑 前 7- 残 基 和 后 7- 残 基 , 只 要 7 个 残 基 中 超过 三 个 残 基 分 布 
,在 螺旋 构象 中 , 则 记 为 状态 H; 同 理 ,只 要 7 个 残 基 中 超过 三 个 残 基 分 布 在 折 闭 构象 中 , 则 记 
为 状态 E; 否则 记 为 状态 C。 随 后 ,对 于 15- 残 基 多 肽 定义 了 9 个 状态 : HH, HC, CH, EE, CE, 
EC、HE、EH、CC。 在 图 4-34 中 , HH+HC+CH 的 节点 对 应 螺旋 区 相应 的 主体 , EE+EC+CE 的 节 
点 大 部 分 在 折 释 区 。 因 此 ,从 多 肽 的 二 级 结构 中 可 以 推断 出 在 多 肽 空间 中 一 个 片段 的 位 置 。 









Fingerprint in the 
universe of 
non-membrane 
polypeptide 
impressed by 
selection pressure 
of evolution 





图 4-34 同 源 拓 扑 特 征 示意 
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对 于 查询 多 肽 i, 通 过 “索引 ”来 评估 它 属于 由 点 组 成 的 螺旋 圈 区 或 折 谷 区 的 概率 , 设 
这 个 “索引 ”所 组 成 的 集合 为 {Wi}。 用 相关 多 上 肽 的 信息 ,评估 查询 多 上 肽 在 区 域 o 中 的 概率 ;: 
P(o)- Y, 8(o.o'(w,))/n ,其 中 m 代 表 {Wi 的 规模 , w, 代 表 含 有 索引 j 的 集合 {Wi 中 的 一 
员 ,如 果 w 属 于 HH+HC+CH, 则 ca'(w)=0 ,如 果 w 属 于 EE+EC+CE, 则 a'(w )=1; 6(xy) 





是 阶 跃 函数 , 当 x=y, 则 6(xy )=1 ,否则 5(xzy ) 20 ; o=0 对 应 螺旋 圈 区 , o DERE DER DX S A 
个 查询 多 肽 可 能 位 于 螺旋 圈 区 ,或 者 折 释 区 ,或 者 其 他 区 。 因 为 CRP 中 的 大 部 分 节点 位 于 螺 
旋 区 ,所 以 研究 两 个 区 之 间 的 交换 概率 具有 足够 的 代表 性 和 准确 性 。 通 过 结构 提供 的 信息 ， 
对 于 查询 多 肽 i ,螺旋 圈 区 和 折 释 区 之 间 的 交换 概率 用 Q 来 评估: 

( 1 ) 当 查 询 多 肽 由 HH+HC+CH 跳 到 折 欠 区 时 : 

Qi =( I-P,,0)) P.C 1) C I-P,,CO)), 

(2) 当 查 询 多 肽 i 由 EE+EC+CE 跳 到 螺旋 圈 区 时 : 

Q;=( I-P, C 1))P.(0) (1-P.,(1)), 

(3 ) 当 查 询 多 肽 属于 其 他 区 时 : 

Q, =0 

第 三 步 : 在 正常 条 件 下 允许 构象 变化 的 过 滤器 

由 于 热 运动 ,在 室温 不 断 变化 下 ,一 个 蛋白 质 有 一 个 正常 的 灵活 结构 ,这 种 结构 对 于 蛋 
白质 分 子 生 物 功能 是 至 关 重 要 的 。 对 于 螺旋 和 Ap 折 释 构 象 ,二 级 结构 的 这 两 个 类 型 在 正常 条 
件 下 是 可 互 换 的 ,而 像 这 种 天 然 的 二 级 结构 的 轻微 扩张 或 收缩 是 不 会 引起 疾病 的 。 在 一 个 
查询 多 肽 两 侧 同时 扩展 x 个 残 基 ,考查 在 螺旋 或 折 释 中 是 否 存在 一 个 放大 的 窗口 。 如 果 扩展 
后 与 扩展 前 的 查询 结果 一 致 的 多 肽 被 过 滤 ,其 相应 的 Qi 被 设置 为 0。 与 构象 疾病 相关 的 查询 
和 蛋白质 ,在 对 应 的 结构 变化 中 ,含有 高 Qi 值 的 多 肽 ,被 预测 为 开关 位 置 

2. 方法 的 评估 与 应 用 

用 序列 同 源 性 低 的 蛋白 证 实 了 该 方法 的 普 适 性 ,由 于 这 个 算法 是 基于 远程 同 源 性 ,对 于 
相应 蛋白 质 家 族 的 所 有 成 员 的 区 域 的 确定 是 相同 的 ,因此 ,对 于 输入 蛋白 质 的 结构 没有 严格 
的 限制 。 并 通过 对 几 十 种 涉 病 蛋 白质 的 检验 ,证 明 此 方法 对 位 于 体液 环境 中 的 蛋白 质 或 结 
构 域 均 有 效 ,适用 于 由 和 蛋白 质 结构 变化 引起 的 各 种 疾病 。 

以 人 类 肝病 毒 蛋 白质 ( PrP ) 为 例 ,首先 ,用 人 类 PrP 的 每 15- 残 基 多 肽 来 评估 它们 的 交 
换 概率 。 在 这 个 分 析 中 ,每 个 残 基 用 15 个 连续 残 基 来 表征 ,为 了 评估 每 个 残 基 位 置 的 显著 
性 ,用 相应 15 个 残 基 的 最 大 概率 对 每 个 残 基 进行 打分 。 图 4-35A 中 显示 的 峰值 代表 发 生 在 
位 置 195 残 基 处 的 交换 概率 。 对 于 每 个 残 基 的 交换 概率 见 图 4-35B ,图 中 显示 五 个 可 能 的 开 
关 位 置 中 有 四 个 是 位 于 188~202 区 域内 (红色 区 域 )， 观 察 图 4-35A 和 图 4-35B 可 推测 出 位 置 
188~202 应 该 负责 构象 变化 的 起 源 。 

肝病 毒 蛋 白质 和 抗 及 病毒 的 化 合 物 的 结构 图 (图 4-36 ) 中 显示 了 已 知 在 肝病 毒 中 阻碍 
致 病 性 变化 的 重要 结合 位 点 。2007 年 , Kuwata 等 报道 将 一 个 抗 及 病毒 的 化 合 物 GN8 结 合 到 
N159-V189-T192-K194-E196 相 应 区 域 能 抑制 及 病毒 致 病 性 。 用 CD_SWITCH 算 法 通过 触发 
构象 转换 几率 的 显著 性 分 析 , 预 测 的 构象 转换 区 域 与 GN8 结 合 口 袋 的 主体 完全 对 应 。 所 以 
对 于 肝病 毒 蛋 白质 ( PrP ), 这 一 区 域 可 作为 此 蛋白质 相 关 结 构 病 变 的 触发 开关 位 置 ,因此 验 
证 了 该 算法 预测 结果 的 准确 性 。 
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图 4-35 A X MASH X: (PDB IDIqm2 A,1044- RAKE) 示意 图 
A. 每 个 15- 残 基 片 段 索引 的 交换 概率 ; B. 每 个 残 基 位 置 的 交换 概率 ; C. 在 进化 信息 缺乏 的 情况 下 ,对 于 预 
测 肝病 毒 稳定 性 的 显著 性 位 置 





图 4-36 ”及 病毒 彼 白 质 和 抗 及 病毒 的 化 合 物 的 部 分 结构 示意 图 
A. Bf RF A ti ICE 6,159, 216189, 26192, HH E194, 26 196 ); B. 抗 及 病毒 化 合 物 GN8 的 结合 口袋 
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CD_SWITCH 算 法 对 病变 敏感 区 域 的 预测 精度 可 达 94% ,病变 能 力 越 低 的 蛋白 发 病 后 越 


致命。 换 句 话说 ,蛋白 质 中 的 病变 敏感 区 域 可 由 理论 迅速 标定 ,大 量 用 于 测定 此 种 区 域 的 实 
验资 源 有 望 得 以 节省 。 研 究 表明 对 病态 结构 改变 的 研究 并 不 拘泥 于 四 十 几 种 经 典 的 蛋白 质 
构象 病 ,很 多 其 他 病理 现象 都 可 以 据 此 进行 分 析 , 如 高 致 病 性 H5N1 型 禽 流感 的 高 毒 机 制 和 
2009 甲 型 HIN1 流 感 的 种 属 跨越 机 制 等 。 通 过 对 错误 折 欠 机 制 的 研究 ,可 以 明确 病理 机 制 ， 
使 临床 方案 更 具 效 率 和 精确 性 ,对 遗传 学 和 医学 研究 具有 一 定 意义 ,而 从 病态 结构 改变 的 角 
度 进行 病理 机 制 的 研究 具有 一 定 发 展 前 景 。 
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分 子 进 化 分 析 


MOLECULAR EVOLUTION ANALYSIS 


进化 是 一 种 不 断 改进 的 过 程 儿 物种 起 源 》 中 这 样 描 述 : “每 个 生物 每 时 每 刻 都 在 为 
生存 进行 反复 的 斗争 ,如 果 在 复杂 甚至 多 变 的 生存 条 件 下 该 生物 仍然 能 够 不 断 改 进 自 
己 , 那 么 其 将 有 较 大 的 生存 可 能 性 并 被 自然 选择 所 保留 。 根据 严格 的 遗传 法 则 ,任何 
被 自然 选择 保留 下 来 的 物种 都 倾向 于 繁殖 其 已 经 被 改进 的 新 的 生命 形式 。” 尽 管 自然 
选择 在 形态 形成 和 行为 进化 方面 似乎 普遍 存在 ,但 在 菜 些 基因 和 基因 组 进化 中 所 起 的 
作用 也 有 其 他 看 法 。 分 子 进化 的 中 性 学 说 认为 ,种 内 和 种 间 大 多 数 可 见 差 异 不 是 自然 
选择 ,而 是 适合 度 很 小 的 随机 突变 的 固定 所 决定 的 

人 类 基因 组 和 多 种 生物 基因 组 测序 计划 的 完成 ,推动 了 分 子 进化 的 跨越 式 发 展 ， 
基因 表达 和 生物 网 络 的 进化 等 研究 内 容 不 断 出 现在 最 新 的 研究 中 ,扩展 了 分 子 进 化 分 
析 的 研究 范畴 。 许 多 研究 者 认为 基因 表达 调控 的 差异 可 能 对 物种 内 和 物种 间 的 表 型 
差异 有 重要 的 作用 ; 基因 的 进化 可 能 不 是 独立 进行 的 ,而 是 受到 蛋白 质 互 作 或 通路 的 
限制 ,是 一 个 协同 进行 的 过 程 , 这 些 研究 拓展 了 分 子 进 化 的 深层 分 子 , 此 外 多 个 基因 共 
同 进 化 或 者 以 模块 的 形式 研究 进化 关系 ,以 及 从 整个 网 络 的 层面 实现 进化 的 研究 。 在 
本 章 下 面 的 内 容 中 ,将 对 分 子 进 化 的 基本 知识 和 研究 进程 进行 介绍 。 
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一 、 核 苷 酸 置换 模型 与 氨基 酸 置换 模型 》》 





(一 ) DNA 序 列 进化 分 析 


由 于 DNA 序 列 包括 多 种 不 同类 型 的 区 域 ,如 蛋白 质 编 码 区 、 非 编码 区 、 外 显 子 、 内 含 子 、 
bien 重复 DNA 序 列 和 插入 序列 等 。 因 此 DNA 序 列 的 进化 演变 比 蛋白 质 序 列 的 演变 更 复 
杂 。 因 此 , 弄 清 所 研究 的 DNA 类 型 和 功能 是 十 分 重要 的 。 即 便 我 们 单独 考虑 蛋白 质 编码 区 ， 
密码 子 第 一 二 ` 三 位 的 核 昔 酸 替代 样式 也 不 尽 相 同 。 而 且 , 某 些 区 域 比 其 他 区 域 更 易 受 到 
自然 选择 的 影响 ,因此 DNA 不 同 区 段 呈 现 不 同 的 进化 模式 。 这 里 主要 研究 蛋白 质 编码 区 和 
RNA 编 码 区 ,这 些 区域 的 进化 相对 简单 ,但 通过 它们 来 理解 进化 的 一 般 规律 极为 重要 。 

1. 两 个 序列 间 的 核 背 酸 差 异 ”同一 祖先 序列 传 衍 的 两 条 后 裔 序列 ,它们 的 核 苷 酸 差异 
NERETAS 一 个 简便 的 描述 序列 分 歧 大 小 的 测度 是 两 条 后 裔 序列 中 不 同 核 苷 酸 位 
点 的 比例 : 








p=n,/n (5-13 


这 里 , Alay Fall A A EST FE A AE PAT, LEP A AEP Ld 
ADRS ATT RAD PRT) BER ES o 

2. ZERERA ”如同 氨 基 酸 替代 , 当 序 列 间 亲 缘 关系 较 近 时 , p 距 离 可 用 来 估 
计 每 个 位 点 上 的 核 苷 酸 蔡 代数 。 然 而 , 当 p 较 大 时 ,因为 没有 考虑 回复 突变 和 平行 突变 ,替代 
数 将 被 低估 。 由 于 核 苷 酸 在 序列 中 只 有 4 种 状态 ,这 个 问题 对 核 苷 酸 序列 比 对 氨基 酸 序列 估 
计 更 为 严重 。 

估计 核 苷 酸 替 代数 ,一般 应 用 核 背 酸 蔡 代 的 数学 模型 。 为 此 ,许多 学 者 提出 了 不 同 的 替 
代 模 型 ,其 中 一 些 模型 以 替代 率 矩 阵 的 形式 列 在 表 5-1 中 。 
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XX5-1 核 苷 酸 替 代 模 型 








( A ) Jukes-Cantor 模 型 ( B ) Kimura 模 型 . 

A T C G A T c G 
A -- a a a A -- p p a 
T a 一 一 a a T B as a Q gc 
C a a 一 一 a G B a 一 一 a " 
G a a a 一 一 C a B B 一 一 





(1 )Jukes 和 Cantor 方 法 : 这 个 最 简单 的 核 苷 酸 替 代 模 型 由 Jukes 和 Cantor 提 出 。 该 模型 假 
定 任 一 位 点 的 核 昔 酸 蔡 代 都 是 以 相同 频率 发 生 的 ,上 且 每 一 位 点 的 核 昔 酸 每 年 以 cx 概率 演变 
为 其 他 3 种 核 苷 酸 中 的 一 种 。 因 此 ,一 个 核 苷 酸 演变 为 3 种 其 他 核 苷 酸 的 任何 一 种 的 概率 为 
y 23a, ) 为 每 年 每 个 位 点 的 核 苷 酸 替 换 率 。 

在 这 个 模型 中 ,我 们 假设 每 对 核 芽 酸 的 替代 率 相同 ,所 以 A、T、C 和 G 的 期 望 频率 是 0.25。 
因此 ,应 用 公式 ( 5-1 ) 是 不 需要 假定 核 苷 酸 频率 不 随时 间 变 化 的 。 

(2 ) Kimura 两 参数 法 : 在 实际 数据 中 ,转换 替代 速率 常 高 于 颠 换 速率 。Kimura 考 虑 到 这 
种 情况 ,提出 一 种 估计 每 个 位 点 核 苷 酸 替 代数 的 方法 。 该 模型 中 ,位 点 转换 替代 率 ( a) 不 同 
THERE 20 )。 

用 Kimura 模 型 ,每 个 核 昔 酸 的 平衡 频率 为 0.25。 因 此 ,无论 核 苷 酸 初 始 频率 为 何 , 均 可 应 
用 。 这 一 点 和 Jukes-Cantor 模 型 类 似 ,使 得 这 两 个 模型 较 其 他 模型 应 用 范围 更 广 。 

[ 例 5-1 】] 人 与 猕 狱 的 细胞 色素 b 基 因 间 的 核 疹 酸 替代 数 估计 

动物 线粒体 DNA 中 的 细胞 色素 b 基 因 是 高 度 保守 的 ,因此 常 被 用 于 研究 亲缘 关系 较 远 的 
动物 的 进化 关系 。 表 5-2 列 出 了 人 与 狂 猴 的 细胞 色素 b 基 因 的 10 种 不 同类 型 核 苷 酸 对 的 数目 ， 
并 分 别 以 密码 子 第 1.2 和 3 位 点 列 出 。 


表 5-2 人 和 猕猴 线粒体 细胞 色素 b 基 因 DNA 序 列 中 观察 到 的 10 种 核 昔 酸 对 


转换 i m 相同 对 EE 
密码 子 的 位 置 - - 
AQ TA "IQ A CG Ti CC- MA .Gü0 n, n 
第 1 21 22 5 1 5 4 68 93 100 56 58 375 
第 20 3 6 1 0 2 140 87 7l 45 32 375 
第 3 60 16 6 5 49 2 11 122 102 2 138 375 
or 101 41 17 7 54 8 219 302 273 103 228 1125 





xis-a T SHAR I] 27 ETE RE Be OH HO 。 对 第 2 密码 子 来 说 ,4 种 方法 
所 获得 的 4 种 d 值 十 分 接近 , P 仅 略 低 于 相应 的 4 值 。 这 表明 当 书 不 大 时 ,不 论 运用 何 种 方 
法 ,同一 位 点 上 多 重 替 代 的 校正 实际 上 并 不 影响 2 值 。 第 1 密码 子 上 由 4 种 方法 获得 的 4 个 估 


计 值 站 彼此 也 相似 ,虽然 它 的 分 值 已 接近 第 2 密码 子 值 的 2 倍 。 然 而 ,在 第 3 密码 子 上 ,p 什 
已 充分 大 ,因此 多 重 替 代 的 校正 变 得 不 重要 。 
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表 5-3 人 和 猕猴 的 线粒体 细胞 色素 b 基 因 中 第 一 .第 二 和 第 三 密码 子 位置 上 每 位 点 的 蔡 代 数 估计 值 











第 1 15.5+1.9 17.3+2.4 17.8 € 2.5 

第 2 8.5414 9.1+1.6 9221.7 

第 3 32.8 € 2.5 50.6 + 4.9 52.3 + 5.4 
(=) 氨基 酸 序列 进化 分 析 


1. 氨基 酸 差异 和 不 同 氨基 酸 的 比例 ”蛋白质 或 肽 链 的 进化 演变 研究 开始 于 两 个 或 多 个 
氨基 酸 序列 的 比较 。 这 些 不 同 序列 分 别 来 自 不 同 的 物种 。 图 5-1 显 示 了 人 、 牛 小 鼠 、 大 鼠 和 
鸡 的 血红 蛋白 a 链 的 氨基 酸 序列 。 图 中 ,不 同 的 氨基 酸 分 别 用 不 同 的 单字 母 代 表 。 


[A] MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKV 


EA 
[F] MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGAKV 






[小 鼠 ] MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHGKKV 
[XR] MVLSADDKTNIKNCWGKIGGHGGEYGEEALORMFAAFPTTKTYFSHIDVSPGSAQVKAHGKKV 
[ 鸡 ] MVLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHFDLSHGSAQIKGHGKKV 
[A] ADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASL 
[F] AAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPAVHASL 
[小 鼠 ] ADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTPAVHASL 
[AM] ADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFTPAMHASL 
[ 鸡 ] vAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGOCFLVVVAIHHPAALTPEVHASL 
[人 ] KFLASVSTVLTSKYRD 
[F] KFLANVSTVLTSKYRD 
UR) KFLASVSTVLTSKYRD 
(KW) KFLASVSTVLTSKYRD 
US] KFLCAVGTVLTAKYRD 


图 5-1 APH 38 2] Jo da $c SoH ARK! 


一 个 简单 的 测度 是 两 序列 间 的 氨基 酸 差 异 数 (mw)。 如 果 所 有 序列 的 氨基 酸 数目 相同 
Cr ), 上 述 差异 数 就 可 用 来 比较 不 同 序列 对 间 的 分 歧 程 度 。 实 际 上 , 当 比 较 很 多 序列 时 ,氨基 
酸 序列 常 含有 插入 或 缺失 (图 $-1 ), 在 这 种 情况 下 ,计算 n 时 一 定 要 删除 所 有 的 插入 /缺失 ( 间 
B), 否则 ,不 同 的 序列 对 间 相 比较 时 计算 出 来 的 ns 是 没有 意义 的 。 

实际 上 ,不 同 蛋 白质 间 序 列 分 歧 更 方便 的 测度 是 两 个 序列 间 有 差异 的 氨基 酸 所 占 的 比 
例 。 即 使 a 随 不 同 序列 而 变化 ,该 比例 值 (p ) 也 可 用 于 比较 分 歧 程 度 。 公 式 为 : 


p=n,/n (5-2) 


这 一 比例 值 也 可 称 为 p 距 离 。 假 如 所 有 氨基酸 位 点 都 以 相等 概率 替代 , 则 nj 遵循 二 项 
分 布 。 
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表 5-4 不 同 状 椎 动物 血红 蛋白 w 链 中 不 同 氨基 酸 的 数目 (上 对 角 线 ) 及 不 同 氨基 酸 的 比例 (下 对 角 线 ) 





We Ee inilio a a 
人 16 20 25 42 
e 0.113 19 32 41 
小 鼠 0.141 0.134 22 41 
KE 0.176 0.225 0.155 50 
38$ s 0.296 0.289 0.289 0.352 


ik: 计算 排除 了 缺失 和 插入 ,使 用 的 氨基 酸 总 数 为 1 42。 


在 图 $-1 所 给 出 的 例子 中 ,删除 所 有 间隔 后 可 比较 的 总 氨基 酸 位 点 数 为 140。 因 此 ,在 此 
例 中 n=140。n 值 出 现在 表 5-4 对 角 线 上 部 ,可 以 很 容易 地 计算 出 p , 列 于 对 角 线 下 部 。 当 所 


比较 的 物种 亲缘 关系 很 远 时 (如 人 和 鸡 ), 尸 值 较 大 。 这 说明 随 着 两 个 物种 的 分 歧 时 间 增 大 ， 
氨基 酸 的 替代 数 也 增 大 ,但 p 并 不 严格 与 分 歧 时 间 ( 1) 成 比例 (图 5-2 )。 


0 
1 
0.8 
PC 距离 
3- 
b 0.6 PIERS 
fa 
= 
0.2 
00 10 20 30 40 50 
单位 : 百 万 年 
图 5-2 p 距 离 和 泊 松 校正 (PC) 距离 随 分 歧 时 间 (t) 变化 的 关系 
2. 泊 松 校正 ( Poisson correction, PC ) 距离 p 与 的 变化 呈现 非 线 性 关系 ,原因 之 一 


是 当 多 个 氨基 酸 蔡 代 出 现在 同一 位 点 时 , mu 偏离 实际 氨基 酸 的 替代 数 将 会 逐渐 增加 。 运 
用 泊 松 分 布 能 够 更 精确 估计 替代 数 的 方法 之 一 是 运用 泊 松 分 布 的 概念 。 令 /为 一 个 特定 
位 点 每 年 的 氨基 酸 蔡 换 率 ( 简便 起 见 ,假设 所 有 位 点 的 r 都 相同 ), 在 :年 后 ,每 个 位 点 氨基 
酸 蔡 代 的 平均 数 为 rt。 在 一 个 给 定位 点 氨基 酸 蔡 代数 上 k=1,2,3,… ) 的 发 生 频率 遵循 泊 
松 分 布 BI: 
P(k;t)ze" rt )'/t (5-3) 
因此 ,在 某 一 位 点 氨基 酸 不 变 的 概率 是 p( 0;t)=e”"。 如 果 多 上 肽 链 的 氨基 酸 为 n, 不 变 氨 
基 酸 的 期 望 值 为 ne”。 
实际 上 ,人 们 并 不 知道 祖先 物种 的 氨基 酸 序列 。 因 而 ,只 能 对 已 有 年 分 化 的 两 个 同 源 


218 第 五 章 ”分子 进化 分 析 
CHAPTER 5 MOLECULAR EVOLUTION ANALYSIS 


序列 进化 比较 来 估计 氨基 酸 的 蔡 代数。 由 于 一 个 序列 的 氨基 酸 无 替代 概率 为 e", 因 而 两 个 
序列 同 源 位 点 均 无 替代 的 概率 是 ; 
q-( e" =e” (5-4) 
此 概率 可 用 1-p 来 估计 ,而 g=1-p。 公 式 中 g=e 了 是 近似 的 ,因为 回复 突变 和 平行 突变 
(在 两 个 不 同 进化 系 内 出 现 所 导致 的 同 源 氨基 酸 发 生 同 一 种 突变 的 情况 ), 并 未 加 以 考虑 。 
当然 ,除非 p 相当 大 (如 > 0.3 ), 上 述 突变 的 作用 一 般 可 以 忽略 。 
如 果 应 用 公式 ( 5-4 ), 则 两 个 序列 间 每 个 位 点 氨基 酸 替 代 总 数 ( d=2rt ) 为 : 
d--ln( 1-p ) (5-5) 
分 子 进 化 研究 中 ,常常 需要 知道 氨基 酸 的 替代 率 (r )。 如 果 从 其 他 生物 学 信息 中 已 弄 清 
了 两 个 序列 间 的 分 化 时 间 t, 此 速率 的 估计 值 为 : 
r= d/(2t) 
注意 ,此 处 4 KG AS LOTR, A GRRE — T ETC A RR 
3. 自 展 法 的 方差 和 协 方差 ”可 以 有 若干 种 方法 来 估计 两 个 序列 间 氨 基 酸 替代 数 。 实 际 
上 ,每 个 模型 都 是 对 真实 情况 的 模拟 ,仅仅 提供 了 氨基 酸 的 近似 替代 数 。 因 此 ,前 述 的 估计 
距离 方差 的 分 析 公式 也 是 近似 的 。 用 最 小 二 乘法 估计 多 个 序列 构建 的 系统 树 的 分 支 长 度 时 ， 
也 需要 获得 不 同 序列 间 的 距离 方差 和 协 方差 的 估计 值 。 解 决 这 一 问题 的 一 个 简便 途径 是 应 
用 自 展 法 ( bootstrap ) 计算 多 种 距离 测度 的 方差 和 协 方差 。 自 展 法 不 要 求 关于 4 值 分 布 的 假 
设 ,只 要 求 每 一 个 位 点 是 独立 进化 。 
假定 有 3 个 是 有 进化 关系 的 且 均 含 n 个 氨基 酸 的 序列 





X11l» X125 X135 X145 X15, evry Xin 
X515 X25, X23 s X245, X25, <+- s Xan 
X315 X32, X33 » X34, X35, ene X3n 


这 里 , x d IA PS MA ERREN, APPS 2. PPS) 与 3 以 及 序列 2 3 
分 别 计算 9 值 , 即 io .gs Man 。 把 Iy 代入 公式 , 便 获 得 序列 条 /的 PC 距离 ( dy ), 

在 自 展 法 计算 方差 和 协 方差 时 ,具有 n 个 氨基 酸 的 3 个 序列 的 随机 样本 是 从 原始 数据 集 
中 产生 的 。 随 机 样本 以 伪 随 机 数 从 原始 的 数据 集中 按 列 有 放 回 随机 抽取 ,形成 自 展 重复 抽 
样 数据 集 。 一 旦 获得 了 随机 样本 , 便 能 对 3 对 序列 的 每 一 对 计算 出 距离 的 估计 值 。 如 此 重复 
8 次 , 便 能 产生 B 个 距离 值 六 。 以 4 表示 第 b 次 自 展 重复 抽样 的 4 值 ,然后 可 用 式 ( 5-6 ) 计 算 
自 展 方差 : 


^ 1 B ^ -— 2 ` 
= 2 (5-6) 
AG in i) 
这 里 ,也 是 所 有 重复 抽样 d 的 平均 值 。 一 般 来 说 ,计算 V,( 4 ) 可 做 约 1000 次 重复 抽样 


( B=1000 ). 

自 展 法 通常 基于 一 个 假设 , 即 所 有 位 点 都 是 独立 进化 。 在 位 点 总 数 低 时 ,这 一 假设 是 不 
成 立 。 但 如 果 位 点 总 数 很 大 (n> 100 ), 如 本 例 中 ,此 假设 可 以 成 立 , 因 为 以 不 同 速 率 蔡 代 的 
大 多 数位 点 在 每 次 自 展 样本 上 都 会 出 现 。 
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自 展 法 的 一 个 优点 是 ,在 没有 数学 公式 可 用 时 ,也 能 算出 方差 和 协 方差 ,而 且 能 比 近似 
的 数学 公式 提供 更 好 的 估计 。 它 能 方便 地 以 同样 的 标准 统计 公式 对 任何 距离 测度 计算 出 方 
差 和 协 方差 。 但 是 , 当 原始 样本 太 小 且 存在 偏 倚 时 ,这 种 偏 倚 不 能 被 自 展 法 消除 。 在 这 种 情 
况 下 ,解析 法 将 得 到 比 自 展 法 更 准确 的 方差 和 协 方差 。 

[ 例 5-2 ] 由 解析 法 和 自 展 法 获得 的 PC 距离 标准 误 

表 5-5 列 出 了 由 解析 式 和 自 展 法 算出 的 PC 距离 ( 4 ) 的 标准 误 , 自 展 法 重复 了 1000 次 。 
它们 均 基 于 图 5:1 的 血红 蛋白 a 链 数 据 。 表 5-5 列 出 了 上 述 数据 集 的 4 值 。 显 然 ,由 上 述 两 种 
方法 所 获得 的 标准 误 基本 是 一 致 的 。 对 p 和 T 距离 ,用 上 述 两 种 方法 也 可 以 获得 几乎 相等 的 
标准 误 。 因 此 ,用 自 展 法 估计 进化 距离 的 标准 误 是 合适 的 。 

表 5-5 解析 法 估算 的 PC 距离 的 标准 误 ( 下 对 角 阵 ) 
及 自 展 法 估算 的 PC 距离 的 标准 误 ( 上 对 角 阵 ) 





人 马 牛 袋鼠 E 鲤鱼 

人 0.031 0.031 0.039 0.078 0.083 

马 0.031 0.030 0.043 0.083 0.081 

牛 0.031 0.031 0.038 0.080 0.079 

袋鼠 0.040 0.043 0.039 0.081 0.084 

M 0.074 0.080 0.076 0.080 0.090 
fifa 0.082 0.081 0.079 0.086 0.089 


4. TERR AEDA RAEES aA — 1T BOE , BITE AE RAS ER A ER] 
事实 上 ,速率 可 因 位 点 不 同 而 变化 。 在 蛋白 质 编码 基因 中 ,密码 子 的 第 1 第 2 和 第 3 个 位 置 上 
的 替代 率 是 不 同 的 。 蛋 白质 活性 中 心 的 氨基 酸 功能 制约 也 对 氨基 酸 位 点 间 的 速率 差异 有 重 
要 影响 。 在 RNA 编 码 基 因 上 也 观察 到 速率 差异 现象 ,主要 是 由 于 RNA 功 能 限制 及 二 级 结构 
的 影响 。 不 同位 点 替代 速率 的 统计 分 析 指 出 ,速率 变异 近似 地 遵循 工分 布 。 

鉴于 上 述 原因 ,许多 学 者 致力 于 发 展 适 用 于 核 背 酸 替 代 的 工 距 离 。 一 般 而 言 , 【距离 比 
非 工 距 离 更 符合 实际 ,但 前 者 比 后 者 方差 更 大 。 有 鉴于 此 ,除非 所 使 用 的 核 苷 酸 数目 非常 大 ， 
否则 了 距离 不 一 定 对 构建 系统 树 有 更 优 的 结果 。 


二 、 系 统 发 育 树 重建 方法 》》 


在 研究 从 病毒 到 人 类 的 各 种 生物 的 进化 历史 中 , DNA 或 蛋白 质 序列 的 系统 发 育 分 析 已 
经 成 为 一 个 重要 的 工具 。 由 于 不 同 的 基因 或 DNA 片 段 的 进化 速率 存在 较 大 的 差异 ,我 们 可 
以 通过 这 些 基因 或 DNA 片 段 来 估计 几乎 所 有 水 平 上 的 有 机 体 间 的 进化 关系 。 系 统 发 育 分 析 
对 于 阐明 多 基因 家 族 的 进化 关系 ,以 及 理解 在 分 子 水 平 上 的 适应 性 进化 过 程 也 是 十 分 重 
要 的 。 


(一 ) 系统 发 育 树 的 种 类 
1. 有 根 树 和 无 根 树 ”基因 或 生物 体 的 系统 发 育 关系 常常 用 有 根 或 无 根 的 树 形 结构 来 表 


—. 220 第 五 章 ”分子 进化 分 析 
CHAPTER 5 MOLECULAR EVOLUTION ANALYSIS 


示 , 即 有 根 树 和 无 根 树 。 树 的 分 支 样式 称 为 拓扑 结构 。 对 一 定 规模 的 分 类 群 (任何 分 类 学 单位 : 
属 , 种 群体 和 DNA 序 列 等 ), 可 能 的 有 根 树 和 无 根 树 的 拓扑 结构 数目 很 大 。 如 果 一 个 类 和 群 数 
为 m 的 有 根 二 又 树 ,其 可 能 的 拓扑 结构 数 为 : 

1 * 3. 5 (2m-3) «[(2m-3)! ]/[ 2"7( m-2)! ].(mz2) 

若 m=10, 则 有 34 459 425 有 根 二 又 树 。 无 根 树 可 能 的 拓扑 结构 的 计算 来 用 m-1 蔡 换 公式 
中 的 m 即 可 , 即 m=10 时 ,结果 为 2 027 025 种 。 在 大 多 数 情况 下 ,大 部 分 可 能 的 拓扑 结构 可 以 
通过 明显 不 可 能 的 进化 关系 或 其 他 信息 排除 。 

2. 基因 树 和 物种 树 ”进化 学 家 常常 对 代表 一 个 物种 或 群体 进化 历史 的 系统 发 育 树 感 兴 
趣 , 这 种 树 称 为 物种 树 或 种 群 树 。 然 而 , 当 一 个 系统 发 育 树 由 来 自 各 个 物种 的 一 个 同 源 基 因 
构建 时 ,得 到 的 树 将 不 完全 等 同 于 物种 树 。 当 某 一 座位 出 现 等 位 基因 多 态 性 时 ,从 不 同 物种 
取样 的 基因 分 离 的 时 间 将 比 物 种 分 歧 时 间 长 。 根 据 基 因 构 建 的 树 的 分 支 结 构 也 可 能 不 同 于 
物种 树 ,我 们 称 这 种 树 为 基因 树 。 同 样 需要 注意 的 是 ,如 果 检 测 的 氨基 酸 或 核 苷 酸 数目 较 少 ， 
重建 的 基因 树 和 物种 树 的 分 支 式样 也 可 能 不 同 。 因 此 ,可 以 通过 检测 大 量 的 氨基 酸 或 核 彰 
酸 来 避免 这 种 错误 。 

当 所 研究 的 基因 属于 一 个 多 基因 家 族 时 ,有 可 能 出 现 问题 。 因 为 构建 一 个 不 同 物种 的 
系统 发 育 树 ,我 们 应 当 使 用 直系 同 源 而 不 是 旁 系 同 源 ,因为 只 有 直系 同 源 才 代表 物种 形成 事 
件 。 然 而 ,事实 上 ,要 区 分 直系 同 源 基 因 和 旁 系 同 源 基因 是 很 难 的 。 

3. 期 望 树 与 现实 树 ”在 推断 系统 发 育 的 理论 中 ,常常 假设 所 研究 的 DNA 或 蛋白 质 序列 非 
常 长 (理论 上 无 限 长 ), 从 中 获得 的 大 量 核 苷 酸 或 氛 基 酸 均 是 随机 取样 。 一 个 用 无 限 长 的 序列 或 
每 一 分 支 的 替代 数 的 期 望 值 构建 的 树 称 为 期 望 树 , 建 立 在 实际 替代 数 基础 上 的 树 称 为 现实 树 ， 
由 所 观察 到 的 序列 数据 构建 的 树 称 为 重建 树 。 期 望 树 、 现 实 树 和 重建 树 通常 是 不 同 的 。 大 多 
数 构 建树 的 方法 的 目的 是 重建 现实 树 ,这 一 类 方法 包括 邻接 法 、 最 大 简约 法 和 最 大 似 然 法 等 。 

当选 择 构 建树 的 DNA 序 列 不 同 , 重 建树 的 拓扑 结构 和 分 支 长 度 也 将 不 同 ,因此 ,评价 物 
种 树 或 种 群 树 时 ,应 尽量 使 用 多 基因 。 

4. 拓扑 距离 ”两 个 不 同 的 树 之 间 的 拓扑 距离 通常 可 以 用 序列 分 割 的 方法 来 测量 。 对 于 
无 根 二 又 树 ,这 个 距离 是 有 差异 内 部 分 支 数 的 两 倍 。 如 果 两 个 8 序列 的 树 具 有 相同 的 拓扑 结 
构 , 则 dT=0, 若 所 有 内 部 分 支 均 产生 不 同 的 分 割 , 则 dT=10。 然 而 ,如 果 比 较 的 两 个 树 具 有 多 
歧 点 , 则 上 述 规则 不 起 作用 ,这 种 情况 下 ,我们 可 以 使 用 Rzhetsky 和 Nei 的 普遍 性 公式 计算 : 

di=2[ min( q,,4; ) -p ]+|9i-9z| (5-7) 

XX HL, 和 9 分 别 为 树 1 和 树 2 的 内 分 支 树 , p 是 使 两 树 产 生 相 同 序列 的 分 割 树 。 当 包含 

多 歧 点 时 ,qi 和 9 可 能 不 同 ; 但 对 于 二 又 树 ,q, 和 4 一 般 是 相同 的 。 


(=) 基于 距离 法 构建 系统 发 生 树 


构建 系统 发 生 树 通常 使 用 的 方法 分 为 3 大 类 : 中 距离 法 ; @ 简 约法 ; OMAK. 

构建 树 的 方法 一 般 包括 两 个 过 程 : 拓扑 结构 的 判断 和 一 个 既定 的 拓扑 结构 分 支 长 度 的 
估计 。 当 拓扑 结构 已 知 时 ,估计 分 支 长 度 可 以 用 多 种 统计 学 方法 ,如 最 小 二 乘法 和 最 大 似 然 
法 等 ,问题 在 于 如 何 判断 或 重建 一 个 拓扑 结构 。 

系统 发 育 重建 的 方法 具有 很 大 的 争议 ,曾经 从 事 通过 形态 学 特征 来 研究 系统 发 育 的 研 
究 者 倾向 于 使 用 假设 条 件 较 少 的 简约 法 ; 从 事 分 子 生物 学 工作 的 研究 者 倾向 于 使 用 分 析 法 ; 
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数学 家 和 统计 学 家 试图 建立 各 种 复杂 的 数学 模型 ,而 较 少 地 考虑 实际 应 用 。 

距离 方法 : 距离 方法 涉及 两 个 步骤: 计算 物种 对 之 间 的 遗传 距离 以 及 从 距离 矩阵 重建 
一 棵 系统 发 育 树 。 下 面 我 们 介绍 两 种 不 需要 分 子 钟 假设 的 方法 : 最 小 二 乘法 (least-squares， 
LS ) 和 邻接 法 ( neighbor-joining, NJ )。 

(1 ) 最 小 二 乘法 (图 5-3 ): 最 小 二 乘法 将 成 对 距离 矩阵 作为 给 定数 据 ,通过 匹配 那些 尽 
可 能 近 的 距离 来 估计 一 棵 树 上 的 分 支 长 度 , 即 对 给 定 的 和 预测 的 距离 差 的 平方 和 最 小 化 。 
预测 距离 是 沿 连接 两 个 物种 的 通路 的 分 支 长 度 总 和 计算 的 。 距 离 差 的 平方 和 的 最 小 值 则 是 
树 与 数据 (距离 ) 相 似 测度 , 它 可 用 作 树 的 分 值 。 





1 人 3 大 猩猩 





2 黑猩猩 4 猩猩 
图 5-3 估计 枝 长 的 最 小 二 乘 标准 的 示意 图 


设 物种 i 之 间 的 距离 为 dj, 树 上 物种 i 到) 间 通路 的 枝 长 和 为 4;}。LS 方 法 对 所 有 独立 的 i 
RERO Y dy ay) BY gc] MEL, EASES SFB PS ZA SY RE. Bi 


如 : 对 Brown 等 的 线粒体 数据 在 k80 模 型 下 计算 成 对 距离 ( 见 表 5-6 ) 作为 观测 数据 。 现 在 , 考 
虑 树 人 ,黑猩猩 ,大 猩猩 ,猩猩 及 它们 的 5 个 枝 长 hti、b、b\ to 


325-6 线粒体 DNA 序 列 的 成 对 距离 


LA 2. 黑猩猩 — 8. 大 猩猩 4. 猩猩 
LA 
2. 黑猩猩 0.0965 
3. 大 猩猩 0.1140 0.1180 
4. 猩猩 0.1849 0.2009 0.1947 


在 这 棵 树 上 ,人 与 黑猩猩 之 间 的 预测 距离 是 b+b, 人 与 大 猩猩 之 间 的 预测 距离 是 hu+tbz+ta， 
依 此 类 推 。 则 距离 差 的 平方 和 为 : 


s-Y(4-4) 


i«j 


^ 2 ^ 2 ^ 2 
-(4.-4.) +(a,-d, | «(4.-4.) + 
A 2 ^ 2 ^ 2 

(4s -dn ) (an -da) + (d-dh 
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表 5-7 K80 模 型 ( Kimura,1980 ) 下 的 最 小 二 乘法 


bt fo t at nh t S 
t:((H,C),G,O) 0.008840 0.043266 0.05328 0.058908 0.135795 0.000035 
t:((H,C),C,O) 0.000000 0.046212 0.05623 0.061854 0.138742 0.000140 


u((H,C),C,0) 同上 
c((H,G),CO) 同上 


FERS TR SIES AR RUBER. 加 加 的 函数 。 最 小 化 $ 的 枝 长 值 为 LS 估计 : f, 0.008840, 


f, -0.043266, t, =0.053280, E 058908, f, =0.135795, 对 应 的 树 分 值 为 $=0.00003547。 对 其 
他 几 棵 树 ， 可 以 进行 类 似 的 计算 。 的 确 ， 其 他 几 棵 二 元 树 都 趋向 于 星 状 树 ,内 分 支 长 估计 值 
为 0。 具 有 最 小 S 的 树 称 为 LS 树 , 它 是 真实 系统 发 育 关系 的 LS 估计 。 

用 最 小 二 乘 标 准确 定 的 树 采 用 同样 的 标准 估计 分 支 长 ,计算 一 个 散 点 图 中 与 y=a+tbx 配 
合 的 直线 。 如 果 对 枝 长 没有 什么 约束 ,就 有 解析 解 ,可 以 通过 解 线性 方程 获得 。 非 约束 方法 
可 以 是 树 重建 的 一 种 良好 的 方法 ,但 是 对 枝 长 没有 明确 定义 。 一 些 模拟 研究 建议 约束 枝 长 
为 非 负 值 ,将 改善 树 重建 效果 ,大 多 数 计算 机 程序 在 现实 LS 方法 时 不 采用 约束 。 值 得 注意 的 
是 , 当 所 估计 出 的 枝 长 为 负 值 时 ,它们 多 数 时 候 其 实 是 接近 于 0。 

( 2) 邻接 法 : 对 树 进行 比较 (特别 是 距离 法 中 ) 所 用 的 一 个 标准 是 以 树 的 枝 长 总 和 来 度 
量 进化 总 量 , 枝 长 总 和 最 小 的 树 称 为 最 小 进化 树 ( minimum evolution tree )。 

邻接 法 是 基于 最 小 进化 标准 的 一 种 聚 类 算法 。 由 于 它 计算 快 .又 能 产生 合理 的 树 ,因而 
得 以 广泛 应 用 。 它 从 一 个 星 状 树 开始 ,然后 加 入 两 个 节点 ,选择 能 达到 树 长 减少 最 大 的 一 对 。 
随后 ,产生 一 个 新 节点 来 替代 两 个 加 入 的 节点 将 矩阵 的 维 数 减少 了 一 次 。 重 复 这 一 过 程 , 直 
到 完全 解 出 这 棵 树 ,该 算法 的 每 一 步 都 要 更 新 树 的 枝 长 以 及 树 长 。 


(三 ) 基于 字母 特征 构建 进化 树 


最 大 简约 法 : 在 采用 等 位 频率 来 重建 人 类 种 群 间 的 关系 时 ,研究 者 建议 进化 树 的 合理 
估计 为 进化 总 数 的 最 小 值 ,这 种 方法 在 应 用 于 离散 数据 时 被 称 为 简约 法 ,而 最 小 进化 法 在 今 
天 被 看 做 是 对 重复 突变 进行 修正 后 枝 长 总 数 最 小 化 的 方法 。 

在 一 个 位 点 上 性 状 变 化 的 最 小 数目 常常 被 称 作 性 状 长 度 ( character length ) 或 位 点 长 度 
(site length )。 对 序列 上 的 所 有 位 点 而 言 ,性状 长 度 之 和 是 对 整个 序列 所 需要 变化 的 最 小 数 
目 , 称 为 树 长 (tree length )、 树 分 值 ( tree score ) 或 简约 分 值 ( parsimony score )。 上 有 具有 最 小 树 分 
值 的 树 是 真实 树 的 估计 , 称 为 最 大 简约 树 。 多 棵 树 是 等 价 最 佳 树 的 情况 经 常见 到 ,尤其 是 序 
列 非常 相似 时 。 

假设 在 某 个 特定 位 点 ,4 个 物种 的 数据 是 AAGG , 且 考 虑 图 $-4 给 出 的 两 棵 树 所 需 的 最 小 
变化 数目 。 我 们 通过 将 性 状 状态 标注 到 灭绝 的 祖先 状态 节点 来 计算 这 个 数目 。 见 图 5-4。 

对 第 一 棵 树 ,可 以 通过 标注 A 和 G 到 两 个 节点 来 做 到 这 一 点 ,内 校 只 需要 一 次 变化 
(A-G )。 对 第 二 棵 树 ,我 们 可 以 将 AA( 已 显示 ) 或 GG( 示 显示) 标注 到 两 个 内 节点 ,任何 一 种 
情况 下 ,最 少 都 需要 两 次 变化 。 注 意 , 某 位 点 上 被 标注 为 祖先 状态 的 一 组 性 状 状 态 被 称 为 祖 
先 重建 ( ancestral reconstruction )。 对 于 具有 (n-2 ) 个 内 节点 的 n 物 种 的 二 元 树 而 言 , 在 每 个 
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1(A) 3(G) KA) 2(A) 


2( A) 4(G) 3(G) 4(G) 
图 5-4 最 大 简约 法 建树 示意 图 


位 点 重建 的 总 数 为 4( n-2 ) ( 核 昔 酸 ) 或 20( n-2 ) (氨基 酸 )。 达 到 变化 最 小 数目 的 重建 称 为 
最 简约 重建 ( most parsimonious reconstruction )。 因 此 ,对 第 一 棵 树 , 只 有 一 个 单一 的 最 简约 重 
建 ,而 对 第 二 棵 树 ,两 个 重建 是 等 价 最 简约 。 

一 些 位 点 对 树 的 判别 并 无 贡献 ,因而 是 没有 信息 的 。 例 如 一 个 恒定 位 点 , 即 所 有 物 
种 在 该 位 niea a icc e pe eon 单 变 位 点 一 一 即 两 个 观察 
的 性 关中 有 一 个 只 出 现 一 只 需要 一 次 变化 ,因而 
也 不 是 信 息 位 点 。 = ea 不 各 和 ) 的 位 点 也 是 非 信 息 的 ,因为 
对 任意 树 只 要 对 所 有 祖先 节点 标注 A 都 需要 3 次 变化 。 dy 息 位 点 ( parsimony- 
informative site ) 而 言 , 至 少 要 有 两 个 状态 被 观测 到 ,每 至 少 两 次 。 注 意 ,信息 位 点 和 非 
言 息 位 点 的 概念 仅仅 只 用 于 简约 法 。 Sea omn ,所 有 位 点 (包括 不 变 位 点 ) 都 
影响 计算 ,应 当 被 包括 在 内 。 

我 们 常常 将 所 有 物种 在 某 个 位 点 上 观察 到 的 性 状 状态 看 做 是 位 点 构 型 (site 
configuration ) 或 位 点 模式 ( site pattern )。 这 意味 着 对 4 个 物种 而 言 只 有 3 种 位 点 式样 是 有 信 
息 的 ,它们 是 xxyy, xyxy 和 xyyx, 这 里 x 和 y 是 任意 两 个 不 同 状 态 。 很 明显 ,这 3 种 位 点 式样 分 别 
“支持 ”3 棵 树 ,分 别 是 7T1 :((1,2),3,4); 72 :((1,3),2,4) 和 73 :((1,4),2,3 )。 设 具有 这 些 
位 点 式样 的 位 点 数 分 别 是 nl1, n2 和 n3, 如 果 n1, n2 或 %3 是 3 个 中 最 大 的 , 则 7T1, 72 和 73 是 最 简 
约 树 。 


(四 ) 用 于 系统 发 育 重建 的 距离 测度 


1. 当 每 个 位 点 的 核 苷 酸 替 代数 目的 Jukes-Cantor 估 计 值 小 于 0.05 时 ,应 当 使 用 p 距 离 或 
Jukes-Cantor 距 离 ,而 不 管 是 否 存在 转换 / 颠 换 ,不管 替代 速率 是 否 因 核 苷 酸 位 点 而 异 。 

2. "40.05«d«1l, 且 检 验 的 核 苷 酸 较 多 时 ,用 Juker-Cantor 距 离 ,除非 转换 / 凑 换 比较 高 
( R»5 )。 但 此 比率 较 高 且 检测 的 核 苷 酸 数目 很 多 时 ,要 使 用 Kimura 距 离 。 

3. 对 于 很 多 序列 来 说 , 4>1 时 构建 的 系统 树 会 因为 某 些 原因 而 不 可 靠 ( 如 存在 对 位 排列 
错误 ), 因 此 ,建议 尽量 避免 使 用 这 些 数据 。 可 以 淘汰 进化 很 快 的 那 部 分 基因 区 域 (如 去 除 免 
疫 球 蛋 白 的 超 变 区 基因 ), 仅 使 用 进化 速度 慢 的 区 域 。 

4. 当 距 离 很 大 而 x 很 小 时 ,用 来 估计 每 个 核 苷 酸 位 点 蔡 代 数据 的 很 多 让 高 方法 个 能 使 
用 ,在 这 种 情况 下 ,p 距 离 可 以 获得 相对 可 靠 的 拓扑 结构 。 

5. 当 一 个 系统 树 是 通过 一 个 基因 的 编码 区 构建 时 , 同 义 与 非 同 义 替 换 之 间 的 差别 就 很 
重要 ,可 以 用 dS 来 构 树 。 

6. 普遍 地 ,如 果 两 种 距离 测度 对 于 同一 数据 获得 相同 的 距离 值 (或 极为 相近 ) 时 ,应 该 
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使 用 简单 的 测度 ,因为 它 的 方差 较 小 。 





三 、 分 子 钟 假说 》》 


(一 ) 概述 


分 子 钟 ( molecular clock ) 假说 认为 DNA 或 蛋白 质 序列 的 进化 速率 随时 间或 进化 谱系 保 
持 恒定 。 在 20 世 纪 60 年 代 初 期 ,人 们 就 观察 到 不 同 物种 中 蛋白 质 序列 的 差异 ,如 血红 和 蛋白、 细 
胞 色素 C 及 血 纤 肽 中 大 致 与 物种 分 歧 时 间 成 正比 。 通 过 这 些 观察 ,提出 了 分 子 进 化 钟 的 概念 。 

首先 需要 澄清 几 点 。 第 一 ,分 子 钟 应 当 被 看 做 是 氨基 酸 或 核 苷 酸 突变 的 随机 性 所 导致 
的 随机 钟 。 它 不 像 普 通 钟表 以 固定 时 间 间 隔 跳 动 ,而 是 以 一 个 随机 间隔 跳动 。 第 二 ,不 同 蛋 
白质 间或 蛋白 质 的 不 同 区 域 间 进 化 速率 的 差异 很 大 ,因而 分 子 钟 假说 允许 不 同 蛋 白质 间 进 
化 速率 不 同 ,或 者 说 每 个 蛋白 质 有 其 自身 固有 的 分 子 钟 , 以 不 同 的 速率 跳动 。 第 三 ,速率 恒 
定性 未 必 对 所 有 物种 适用 ,很 有 可 能 只 存在 于 某 一 类 群 中 。 例 如 ,我们 可 以 说 就 某 个 特定 基 
因而 言 ,分 子 钟 假说 在 灵 长 类 中 成 立 。 

在 分 子 进化 的 中 性 学 说 ( neutral theory of molecular evolution ) 提出 之 时 ,分子 进化 的 “ 似 
钟 特性 ” 被 认为 “可 能 是 该 学 说 最 有 力 的 证 据 "。 中 性 学 说 强调 相对 适应 度 接近 于 零 的 中 性 
或 近 中 性 突变 的 随机 固定 。 分 子 进化 的 速率 则 等 于 中 性 突变 率 , 而 与 环境 变化 或 种 群 大 小 
等 因素 无 关 。 如 果 突 变 率 相似 而 蛋白 质 功能 在 同一 类 群 中 保持 不 变 ,以 至 于 中 性 突变 比例 
相同 ,那么 根据 中 性 学 说 的 预测 ,进化 速率 将 是 恒定 的 。 蛋 白质 间 的 速率 差异 则 被 解释 为 由 
于 不 同 蛋 白质 具有 不 同 的 功能 限制 ,因而 中 性 突变 的 比例 不 同 。 

近年 来 ,考古 学 数据 被 用 来 校 定 分 子 钟 ,即将 序列 间 的 距离 转换 成 绝对 地 质 时 间 和 置换 
率 。 病 毒 基 因 分 析 涉 及 类 似 的 情况 ,其 进化 非常 迅速 ,以 至 于 数 年 之 内 就 可 以 观测 到 变化 。 
人 们 可 以 用 病毒 被 隔离 的 时 间 来 校正 分 子 钟 ,并 使 用 与 这 里 讨论 基本 相同 的 方法 来 估计 分 
歧 时 间 。 


(二 ) 相对 速率 检验 


最 简单 的 分 子 钟 假设 检验 是 采用 第 三 个 物种 C( 外 类 群 ) 来 检验 两 个 物种 A 和 B 是 否 以 相 
同 的 速率 进化 。 这 一 检验 称 为 相对 速率 检验 ( relative-rate test ), 其 实 几 乎 所 有 的 分 子 钟 检 
验 比 较 的 都 是 相对 速率 而 不 是 绝对 速率 。 如 果 分 子 钟 假说 为 真 ,那么 从 祖先 节点 0 到 物种 A 
和 B 的 距离 应 当 相 等 40A=dOB 和 a=b。 同 理 , 人 们 可 以 得 出 dAC=dBC。 


(三 ) 内 部 分 枝 检验 


1. 正 态 偏离 (2Z ) 检 验 、 如 前 所 述 ,推断 树 的 可 靠 性 是 通过 检验 其 每 个 内 部 分 枝 的 可 靠 
性 来 完成 的 。 这 个 检验 (内 部 分 支 检验 ) 适 用 于 由 距离 法 构建 的 树 。 考 虑 5 序列 树 ,在 5 序列 
的 情况 下 ,有 15 种 可 能 的 无 根 二 分 此 树 ,每 个 树 由 5 个 外 部 分 支 和 2 个 内 部 分 支 组 成 。 假 设 拓 
扑 结构 A 是 正确 的 ,而 其 他 的 都 是 不 正确 的 , 则 表明 正确 拓扑 结构 的 所 有 分 支 长 度 估计 的 期 
望 值 是 0 或 者 正 值 , 而 不 正确 拓扑 结构 中 至 少 有 一 个 内 部 分 支 长 度 为 负 值 , 且 该 分 支 产 生 了 
序列 间 的 一 个 不 正确 分 区 。 只 要 使 用 无 偏 距离 估计 而 分 支 长 度 用 LS 方法 估计 , 则 对 于 任何 
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数目 的 序列 构造 的 树 进行 检验 似乎 都 是 正确 的 。 因 此 ,如 果 一 个 树 的 某 个 内 部 分 支 估 计 值 
被 确定 为 负 值 ,该 树 的 拓扑 结构 很 可 能 就 是 错误 的 。 

上 述 的 零 假设 检验 能 相当 方便 地 应 用 于 由 距离 法 (特别 是 由 NJ 或 者 ME 方法 ) 获得 的 树 
的 分 析 上 ,因为 只 有 正确 树 的 所 有 内 部 分 支 才 可 能 是 正 值 的 。 但 在 MP 和 MI 树 中 ,不 管 拓扑 
结构 如 何 , 所 有 内 部 分 支 都 为 正 值 ,因此 ,就 很 难 建立 出 一 种 检验 零 假 设 的 分 析 方 法 。 然 而 ， 
使 用 自 展 法 可 以 检验 零 假 设 。 l 

2. HERBA CERES PAH FERR AEE A RAB iX 
种 方法 是 检验 一 个 给 定 树 的 每 个 内 部 分 支 的 可 靠 性 。 与 自 展 检验 法 相似 ,从 原始 序列 中 随 
机 抽样 形成 与 原始 数据 数目 相同 的 核 苷 酸 (或 者 氨基 酸 ), 再 用 从 原始 序列 数据 获得 的 树 拓 
扑 结构 来 计算 所 有 分 支 长 度 , 并 对 同一 种 拓扑 结构 重复 数 百 次 。 一 个 内 部 分 支 的 长 度 估计 b 
将 随 着 重复 次 数 变 化 而 不 同 , 且 可 能 为 负 值 。 我 们 可 以 计算 b 的 平均 数 以 及 标准 误 , 并 进行 Z 

该 检验 结果 通常 与 上 述 分 析 方法 获得 的 结果 非常 相似 。 但 是 该 方法 优 于 解析 法 , 即 无 
需 分 别 计算 每 个 替代 模型 pb 的 标准 误 ; 所 有 替代 模型 的 标准 误 可 用 同样 的 方法 计算 。 因 此 计 
算 时 间 不 会 随 序 列 数 增 加 而 迅速 增加 。 这 个 方法 比 解析 法 更 易 运用 。 然 而 , 当 核 苷 酸 或 者 
氨基 酸 数 目 小 时 ,该 方法 可 能 会 给 出 Pc 的 有 偏 估计 ,这 是 因为 如 果 原 始 样 本 有 偏差 , 则 此 偏 
差 在 重复 抽样 时 不 能 被 除去 。 在 这 种 情况 下 ,解析 法 要 好 得 多 。 
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基因 和 基因 组 的 适应 性 进化 最 终 决定 形态 .行为 和 生理 上 的 适应 ,以 及 物种 分 歧 和 进化 
创新 ( evolutionary innovation )。 因 此 ,在 分 子 进化 研究 中 ,分子 适 应 是 一 个 令 人 振奋 的 读 题 。 
尽管 自然 选择 在 形成 形态 和 行为 进化 方面 似乎 普遍 存在 ,但 它 在 基因 和 基因 组 进化 中 所 起 
的 作用 尚 存在 争议 。 分 子 进化 的 中 性 学 说 认为 ,种 内 和 种 间 大 多 数 可 见 差异 不 是 由 自然 选 
择 , 而 是 由 适合 度 很 小 的 随机 突变 的 固定 决定 的 。40 年 来 人 们 发 展 了 一 系列 中 性 检验 方法 ， 
本 节 介 绍 正 选择 和 负 选 择 的 基本 概念 以 及 分 子 进化 的 主要 理论 ,还 将 简要 介绍 几 种 群体 遗 
传 学 中 发 展 起 来 的 常用 的 中 性 检验 方法 。 另 外 引入 应 用 范围 比较 广 的 dN/dS 检 验 , 并 且 详 细 
介绍 了 其 计算 方法 。 


一 、 中 性 与 近 中 性 理论 >> 


在 群体 遗传 学 中 ,一 个 新 突变 基因 a 与 野生 型 显 性 基因 A 的 相对 适合 度 由 选择 系数 s 来 度 
量 。 设 基因 型 AA, Aa 和 aa 的 相对 适合 度 分 别 为 1,1+s 和 1+2s, 则 s<0, =0 及 >0 分 别 对 应 负 选 择 
( negative selection ) 或 净化 选择 ( purify selection 人 中 性 进化 和 正 选择 ( positive selection )。 新 
突变 基因 的 频率 各 世代 高 低 不 同 , 既 受 自然 选择 又 受 随 机 漂 变 的 影响 。 究 竞 是 随机 漂 变 还 
是 自然 选择 决定 了 突变 的 命运 取决 于 Ns( N 为 有 效 群 体 的 大 小 )。 若 |Ns | >> 1 , 则 自然 选择 决 
定 基 因 命 运 ; 若 Ns| 接近 于 0, 则 随机 漂 变 的 作用 非常 重要 ,而 且 该 突变 为 中 性 或 近 中 性 。 

按照 中 性 理论 ,我 们 今天 观察 到 的 遗传 变异 一 一 无 论 是 种 内 多 态 性 还 是 种 间 分 歧 , 均 
不 取决 于 自然 选择 所 驱动 的 有 利 突变 的 固定 ,而 是 取决 于 那些 事实 上 没有 适合 效应 ( 即 中 性 
的 ) 突变 的 随机 固定 。 下 面 是 该 理论 的 一 些 观点 和 预测 。 

(1 ) 大 多 数 突变 是 有 害 的 ,会 被 净化 选择 所 清除 。 

(2 ) 核 苷 酸 置换 率 等 于 中 性 突变 率 ( 即 总 突变 率 乘 以 中 性 突变 所 占 比例 )。 如 果 物 种 间 
中 性 突变 率 恒定 (或 者 日 历时 间或 者 世代 时 间 ), 则 置换 率 也 是 恒定 的 。 这 个 预测 为 分 子 钟 
假说 提供 了 解释 。 

(3 ) 功 能 较 重要 的 基因 或 基因 区 域 进化 较 慢 。 在 具有 较 重 要 作用 或 处 于 较 强 功能 约束 
下 的 一 个 基因 中 ,中 性 突变 比例 较 小 ,使 得 核 背 酸 置 换 率 较 低 。 现 在 ,功能 重要 性 和 置换 率 
之 间 的 负 相 关 在 分 子 进 化 中 是 一 个 普遍 现象 。 例 如 ,替代 置换 率 几 乎 总 是 比 沉默 置换 率 低 ; 
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密码 子 第 3 位 比 第 1 和 第 2 位 进化 更 快 ; 具有 相似 化 学 性 质 的 氨基 酸 比 不 相似 的 氨基 酸 更 容易 
相互 替代 。 如 果 自 然 选择 在 分 子 水 平 上 驱动 进化 过 程 。 那 么 可 想 而 知 ,功能 重要 的 基因 的 
进化 速率 比 功能 不 重要 的 基因 要 高 。 

(4) 种 内 多 态 性 和 种 间 分 此 是 中 性 进化 同一 过 程 的 两 个 阶段 。 

(5 ) 形 态 特 征 (包括 生理 ,行为 等 ) 的 进化 的 确 是 自然 选择 所 驱动 的 。 中 性 学 说 关注 的 
是 分 子 水 平 上 的 进化 。 

围绕 中 性 理论 的 争论 已 产生 很 多 的 群体 遗传 理论 和 分 析 工 具 。 下 面 将 讨论 其 中 几 种 。 





二 、 微 观 适 应 性 进化 的 检验 方法 >>> 


以 下 几 个 是 典型 的 统计 学 研究 适应 性 进化 的 方法 ,已 经 形成 了 稳定 的 软件 。 根 据 输入 
数据 的 不 同 可 以 检验 相应 基因 的 选择 强度 。 

1. Tajima 的 D 检 验 在 随机 交配 的 群体 中 ,一 个 中 性 基因 上 保持 的 遗传 变异 量 由 
0 =4N1 决 定 ,这 里 N 为 (有 效 ) 群 体 大 小 , 为 每 一 代 的 突变 率 。 从 每 个 位 点 的 角度 定义 
9 , 它 也 是 从 群体 中 随机 抽取 的 每 条 序列 的 期 望 位 点 杂 合 度 。 例 如 ,在 人 类 非 编 码 DNA 中 ， 
9 ~ 0.0005 ,意味 着 两 条 随机 的 人 类 序列 间 大 约 0.05% 的 位 点 不 同 。 群 体 数据 一 般 很 少 有 变 
异 , 所 以 通常 采用 无 限 位 点 模型 ,假定 每 个 突变 都 发 生 在 DNA 序 列 的 不 同位 点 上 , 且 无 须 校 
正 多 重 命中 。 注 意 ,群体 规模 大 和 突变 率 高 都 会 导致 群体 中 保持 更 高 的 遗传 变异 。 

两 种 从 群体 中 随机 抽取 DNA 序 列 的 简单 方法 可 以 用 来 估计 9 。 第 一 种 是 包含 a 条 序列 


n-l 
的 样本 中 的 多 态 性 位 点 数 S, 期 望 值 E(S) = LOa，, 这 里 的 [为 序列 中 的 位 点 数 ,a, = 1/i ， 
i=l 


He o ari Ô, = S/(La) 估 计 。 第 二 种 方法 是 对 n 条 序列 所 有 成 对 比较 的 核 背 酸 差异 的 平均 比 
例 值 的 期 望 为 6 ,将 0 作为 一 个 估计 值 , 则 记 作 和 . 。 这 两 种 6 的 估计 在 中 性 突变 模型 下 均 
无 偏 , 即 假定 无 选择 .无 重组 .无 群体 分 化 或 大 小 变化 ;以 及 突变 和 漂 变 之 间 平 衡 。 然 而 ,如 
果 模 型 的 假设 不 成 立 , 则 不 同 因素 对 入 和 E 有 不 同 影响 。 例 如 , 若 轻微 有 害 突变 在 群体 中 
保持 较 低 频率 能 显著 增加 S 和 人 值 ,但 对 G 几乎 没有 影响 。 9 的 两 个 估计 量 可 以 为 了 解 千 
成 严格 中 性 模型 失效 的 因素 和 机 制 提供 信息 。 因 此 , Tajima 构 建 了 以 下 的 检验 统计 量 : 


EA CAN (5-8) 
se(ô,-ô, ) 


这 里 , SE 为 标准 误差 。 

在 无 效 中 性 模型 下 , D 的 均值 为 0, 方 差 为 1。Tajima 建 议 采 用 标准 正 态 分 布 和 B 分布 来 
确定 D 是 否 显 著 不 同 于 0。 

Tajima 的 D 检 验 的 统计 显著 性 可 能 与 几 种 不 同 的 解释 相 容 ,而 且 难 以 区 分 它们 。 正 如 前 
面 所 讨论 的 ,一 个 负 D 值 表明 存在 净化 选择 或 群体 中 分 离 的 轻微 有 害 突变 。 然 而 ,人 负 D 值 也 
可 能 是 由 群体 扩张 造成 的 。 在 一 个 扩张 群体 中 ,可 能 分 离 出 许多 新 的 突变 , 且 它 们 在 数据 中 
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以 单元 ( singletion ) 形 式 出 现 , 即 其 他 所 有 序列 在 此 位 点 上 都 相同 ,只 有 一 条 序列 不 同 。 单 元 
增加 了 分 离 位 点 的 个 数 并 导致 D 值 为 负 。 类 似 地 , D 值 为 正 可 解释 为 平衡 选择 将 突变 维持 在 
居中 频率 。 然 而 ,一 个 收缩 的 群体 也 能 够 导致 D 值 为 正 。 

2. Fu 和 Li 的 D 检 验 与 Fay 和 Wu 的 检验 ”在 n 条 序列 的 一 个 样本 中 ,一 个 多 态 位 点 上 突 
变 核 苷 酸 的 频率 为 "=1,2，…, n-1。 样 本 中 观察 到 的 突变 的 这 种 分 布 成 为 位 点 频谱 ( site- 
frequency spectrum )。 通 常 ,采用 杂 缘 关系 很 近 的 外 类 群 来 推断 祖先 的 和 衍生 的 核 苷 酸 状态 。 
例如 , 若 在 一 个 ”=5 的 样本 中 观察 到 的 核 苷 酸 为 AACCC ,而 外 类 群 中 为 A( 假 定 的 祖先 状态 )， 
则 x=3。Fu 设 7 为 突变 规模 。 如 果 祖 先 状 态 未 知 , 则 不 可 能 区 分 突变 规模 是 x 还 是 n-r, 使 得 那 
些 突变 被 划 为 同一 类 ,位 点 频谱 则 被 认为 是 折 倒 的 , 折 芭 构象 提供 的 信息 远 少 于 非 折 释 构 
象 ,因而 ,采用 外 类 群 来 推断 祖先 状态 应 当 增 加 检验 效力 ,但 缺点 是 该 检验 可 能 会 受到 祖先 
重建 中 误差 的 影响 。 

Fu 和 Li 区 分 了 内 部 突变 和 外 部 突变 , 即 分 别 在 系谱 树 内 枝 或 外 校 上 发 生 的 突变 。 设 这 
两 类 突变 的 个 数 分 别 为 和 wz, 注意 m1 为 单 突变 的 个 数 ,他 们 构建 了 以 下 的 统计 量 : 


ah -(2, 1). 
SE (n, - (a, -1)n;) 


这 里 ,a, = 51/1 ,SE 为 标准 误差 。 与 Tajima D 检 验 相 类 似 ,该 统计 量 也 是 作为 中 性 模型 下 


6 的 两 个 估计 值 间 的 差异 来 构建 的 。Fu 和 Li 认为 群体 中 分 离 的 有 害 突变 倾向 于 近期 产生 ， 
位 于 树 的 外 枝 , 且 对 ws 起 作用 ; 而 内 枝 上 的 突变 多 为 中 性 , 且 影 响 yr 

3. MeDonald-Kreitman 检 验 和 选择 强度 估计 “中 性 学 说 认为 种 内 多 样 性 (多 态 性 ) 和 种 
间 分 卜 是 同一 进化 过 程 的 两 个 阶段 , 即 两 者 都 是 由 中 性 选择 突变 的 随机 漂 变 所 致 。 因 而 ,如 
果 同 义 和 非 同 义 突变 都 是 中 性 的 , 则 种 内 同 义 和 非 同 义 多 态 性 的 比例 应 与 种 间 同 义 和 非 同 
义 差 异 的 比例 相同 。 

近 缘 物种 蛋白 质 编 码 基因 中 的 可 变 位 点 可 依 位 点 是 否 具 有 多 态 性 或 固定 差异 ,以 及 该 
差异 是 同 义 还 是 非 同 义 的 ,划分 为 一 个 2 x 2 列表 中 的 4 类 ( 表 5-8 )。 假 设 我 们 从 物种 1 中 抽取 
5 条 序列 ,从 物种 2 中 抽取 4 条 序列 ,若菜 位 点 在 物种 1 中 数据 为 AAAAA ,在 物种 2 中 为 GGGG， 
则 该 差异 被 称 为 固定 差异 。 奎 某 位 点 在 物种 1 中 的 数据 AGAGA, 而 在 物种 2 中 为 AAAA, 则 
该 位 点 被 称 为 多 态 性 位 点 。 注 意 , 无 限 位 点 模型 无 需 对 隐藏 变化 进行 校正 。 如 果 数 目 不 
多 , 则 中 性 无 效 假设 等 价 于 列表 的 行 和 列 之 间 独 立 并 可 被 上 分 布 或 Fisher 精 确 检验 验证 。 
MeDonald 和 Kreitman 测 定 了 果 蝇 3 个 亚 群 的 乙醇 脱氧 酶 基因 (4djp ) 序 列 ,获得 了 表 5-8 中 列 出 
的 数据 。P 值 小 于 0.006 ,说 明 与 中 性 期 望 有 显著 偏差 。 种 间 替 代 突 变 远 多 于 种 内 替代 突变 。 
McDonald 和 Kreitman 将 此 模式 认 作 驱动 种 间 差 异 的 正 选 择 证 据 。 

表 5-8 果 蝇 Adh 基 因 中 存在 沉默 突变 .置换 突变 以 及 多 态 性 位 点 个 数 (数据 来 自 McDonald and Kreitman, 1991 ) 


”变化 类 型 固定 差异 多 态 性 
置换 ( 非 同 义 ) 7 2 
沉默 ( 同 义 ) 17 42 





(5-9) 
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为 了 和 弄 清 这 个 解释 后 面 的 推论 ,假定 同 义 突 变 是 中 性 的 ,考虑 选择 对 物种 分 歧 之 后 出 现 
的 非 同 义 突变 的 影响 。 人 们 预期 有 利 替 代 突变 会 很 快 固定 下 来 并 成 为 种 间 的 固定 差异 。 因 
而 ,车 固定 的 替代 突变 过 剩 ( 如 同 在 4dh 中 观察 到 的 ), 则 表明 存在 正 选择 。 

人 们 在 哺乳 动物 线粒体 基因 中 已 观察 到 过 剩 的 蔡 代 多 态 性 ,表明 净化 选择 下 存在 轻微 
有 害 蔡 代 突变 。 有 害 突变 被 净化 选择 清除 ,而 且 不 会 在 种 间 比 较 中 看 见 ,但 在 种 内 还 是 会 
分 离 。 





三 .宏观 适应 性 进化 的 检验 方法 》》 


蛋白质 编码 序列 区 分 为 同 义 置 换 和 非 同 义 置换 ,对 理解 自然 选择 的 作用 来 说 ,这 比 内 含 
子 或 非 编 码 序 列 优越 得 多 。 若 将 同 义 置 换 率 作 为 基准 点 ,我 们 可 以 推断 自然 选择 在 非 同 义 
置换 固定 过 程 中 是 推动 还 是 阻碍 作用 。 非 同 义 / 同 义 置 换 率 的 比率 (w= dv /dy ) 可 以 在 蛋白 
质 水 平 度量 选择 压力 。 如 果 选 择 对 适合 度 没 有 影响 , 则 非 同 义 突变 将 以 与 同 义 突变 相同 的 
速率 被 固定 ,使 得 qdN=dS 及 。 =1。 如 果 非 同 义 突变 是 有 害 的 , 则 净化 选择 将 降低 其 固定 速率 ， 
使 得 IN<dS 及 w<1。 如 果 非 同 义 突变 受到 达尔 文选 择 的 青睐 , 则 其 被 固定 的 速率 将 高 于 同 
义 突变 ,致使 dN>dS 及 w>1。 因 此 , 非 同 义 突 变 率 显著 高 于 同 义 突变 率 即 为 蛋白 质 适 应 性 进 
化 的 证 据 。 

然而 ,可 以 预料 一 个 功能 蛋白 上 的 大 多 数位 点 在 大 部 分 进化 时 间 都 是 受 约束 的 。 即 使 
发 生 正 选择 ,也 只 能 影响 几 个 位 点 , 且 只 有 偶尔 发 生 。 因 此 ,这 种 成 对 平均 方法 很 少 检测 到 
正 选择 。 近 期 研究 着 重 检测 影响 系统 发 育 关系 中 特定 谱系 或 蛋白 质 中 单个 位 点 的 正 选择 。 

对 编码 蛋白 质 的 DNA 序 列 , 同 义 和 非 同 义 置换 被 定义 为 平均 每 个 同 义 位 点 上 的 同 义 置 
换 数 ( ds 或 Ks ) 以 及 平均 每 个 非 同 义 位 点 上 的 非 同 义 置换 数 ( dyBKK, )。 

本 节 主 要 使 用 记 数 法 计算 ,计数 方法 类 似 于 JC69 等 核 音 酸 置换 模型 下 的 距离 计算 ,有 3 
个 步 又: 由 对 同 义 和 非 同 义 位 点 计数 ; @ 对 同 义 和 非 同 义 差异 计数 ; @ 计 算 差 异 比例 并 校正 
多 重 命 中 ( multiple hit )。 将 位 点 和 差异 都 计数 后 ,就 可 以 区 分 同 义 和 非 同 义 这 两 种 类 型 间 的 
差异 了 。 

L 位 点 计数 ”每 个 密码 子 都 有 3 个 核 童 酸 位 点 ,分 成 同 义 和 非 同 义 两 类 。 以 密码 子 TIT 
(Phe ) 为 例 , 由 于 3 个 密码 子 位 置 上 每 个 核 苷 酸 都 可 以 转变 为 另外 3 种 核 昔 酸 ,该 密码 子 就 有 
9 个 直接 邻居 :TTC( Phe ), TTA( Leu ), TTG( Leu ), TCT( Ser ), TAT( Tyr ), TGT( Cys ), CTT( Leu ), 
ATT( Ile ) 和 GTT( Val )。 其 中 ,密码 子 TTC 和 密码 子 TTT 编 码 同 一 个 氨基 酸 。 因 此 ,对 密码 子 
TTT 而 言 , 就 有 3 x 1/9=1/3 个 同 义 位 点 ,3 x 8/9=8/3 个 非 同 义 位 点 ( 表 5-9 )。 在 计数 过 程 中 ,不 
计 入 变 为 终止 密码 子 的 突变 。 我 们 将 该 方法 用 于 序列 1 中 的 所 有 密码 子 ,并 将 计数 结果 相 加 
以 获得 全 序列 中 同 义 和 非 同 义 位 点 的 总 数 。 然 后 ,对 序列 2 重复 该 过 程 并 计算 两 条 序列 间 的 
平均 位 点 数目 ,分 别 计 为 S 和 N, 有 St+N=3 x 工 ., 这 里 LZ. 为 序列 中 的 密码 子 的 数目 。 


325-9 密码 子 TTT( Phe ) 中 的 位 点 计数 


目标 密码 子 突变 类 型 置换 率 ( K =1 ) 置换 率 ( K =2 ) 
TTC( Phe ) fa] SZ 1 2 
TTA( Leu ) 非 同 义 1 1 
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SU 
目标 密码 子 突变 类 型 置换 率 ( K=1 ) 置换 率 ( K =2 ) 
TTG( Leu ) 非 同 义 1 1 
TCT( Ser ) 非 同 义 1 2 
TAT( Tyr ) 非 同 义 1 1 
TGT( Cys ) 非 同 义 1 1 
CTT( Leu ) 非 同 义 1 2 
ATT( Ile ) 非 同 义 1 1 
GTT( Val ) 非 同 义 1 

总 和 9 12 
同一 位 点 数 1/3 1/2 
非 同 义 位 点 数 8/3 5/2 


iE: K WR R/ RES Wb 


2. 变异 计数 ”第 二 步 是 对 两 条 序列 间 的 同 义 和 非 同 义 变异 进行 计数 。 换 言 之 ,在 两 条 
序列 间 所 观测 的 差异 可 按 同 义 和 非 同 义 划 分 。 我 们 再 按 密码 子 逐 一 处 理 。 很 明显 ,如 果 两 
个 所 比较 的 密码 子 相 同 (如 TTT 对 TTT ), 则 同 义 和 非 同 义 变异 数目 为 0 ; 如 果 两 个 所 比较 的 
密码 子 间 仅 在 一 个 位 置 上 存在 差异 (TTC 对 TTA ), 就 很 容易 发 现 这 种 单一 的 变异 是 同 义 的 还 
是 非 同 义 的 。 然 而 ,如 果 两 个 比较 的 密码 子 间 在 2~3 个 位 置 上 都 存在 差异 (如 CCT 对 CAG 或 
GTC 对 ACT ), 则 有 4~6 条 进化 途径 能 使 一 个 密码 子 变 成 男 一 个 密码 子 。 多 条 途径 中 可 能 六 
及 同 义 和 非 同 义 差 异 数 不 同 。 大 部 分 计数 方法 对 不 同 途径 赋予 同等 权重 。 

例如 ,密码 子 CCT 和 CAG 间 存在 两 条 途径 ( 见 表 5-10 )。 第 一 条 途径 要 通过 中 间 密 码 子 
CAT 转 换 , 涉 及 两 个 非 同 义 变异 ; 而 第 二 条 途径 通过 中 间 密 码 子 CCG 转 换 ,涉及 一 个 同 义 变 
异 和 一 个 非 同 义 变异 。 如 果 我 们 对 这 两 条 途径 赋予 相同 权重 , 则 两 个 密码 子 间 有 0.5 个 同 义 
变异 和 1.5 个 非 同 义 变异 。 如 果 同 义 突变 率 高 于 非 同 义 突变 率 , 如 同 几 乎 所 有 基因 中 表现 的 
一 样 ,第 二 条 途径 应 该 比 第 一 条 途径 的 可 能 性 更 大 ,预先 不 知道 wwds 比 率 和 序列 分 歧 度 ,就 
很 难 对 不 同 途径 赋予 合适 的 权重 。 不 过 ,计算 机 模拟 结果 表明 加 权 对 估计 值 的 影响 很 小 ,万 
其 是 当 序列 的 分 歧 度 并 不 是 很 大 时 。 


表 5-10 密码 子 CCT 和 CAG 间 的 两 条 途径 


差异 
途 径 à 
fx 非 同 义 
CCT( Pro ) —CAT( His ) —CAG( Gln ) 0 2 
CCT( Pro ) —CCG( Pro ) —CAG( Gln ) 1 1 
平均 0.5 1.5 


计数 沿 着 序列 密码 子 逐 一 进行 ,将 差异 数 相 加 得 到 两 条 序列 间 总 的 同 义 和 非 同 义 差异 数 ,分 别 记 为 5 
和 Ni。 
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3. 多 重 命中 校正 ”现在 ,我们 有 : 
p=S/S 
pyz NUN (5-10) 
分 别 是 同 义 和 非 同 义 位 点 上 的 差异 比例 ,它们 等 同 于 针对 核 苷 酸 的 JC69 模 型 下 的 差异 
比例 。 因 此 ,我 们 套用 JC69 中 对 多 重 命中 的 校正 。 
3 4 
d, =—Ftog|1-$ | 
(5-11) 


3 4 
d, ——-—log|1—— 
N 4 zl + | 


当 我 们 只 关注 同 义 位 点 和 差异 时 ,每 个 核 苷 酸 并 不 存在 3 个 其 他 核 苷 酸 来 突变 的 情况 。 
实际 上 ,对 多 重 击 中 校正 的 作用 很 少 , 至 少 在 序列 分 歧 度 不 高 时 如 此 , 故 校正 公式 带 来 的 偏 
差 也 就 不 是 非常 重要 了 。 

4. rbcL 基 因应 用 实例 ”我们 应 用 上 述 方法 来 估计 黄瓜 和 烟草 中 叶绿体 蛋白 1,2- 二 磷 
酸 核 酮 糖 羧 化 酶 /加 氧 酶 大 亚 基 ( rbcL ) 基因 间 的 qd, 和 dv。 黄瓜 ( Cucumissativus )rbclL 基 因 的 
Genbank 序 列 号 为 NC _007144, 烟 草 ( Nicotiana tabacum ) 为 Z00044。 在 黄瓜 和 烟草 基因 中 分 
别 有 476 个 和 477 个 密码 子 ,对 位 排列 后 的 序列 则 有 481 个 密码 子 。 我 们 删除 了 任意 一 个 物种 
对 位 排列 时 出 现 的 间隔 密码 子 , 这 样 序列 中 就 剩 下 472 个 密码 子 。 

表 5-11 列 举 了 数据 的 一 些 基 本 统计 值 ,它们 是 对 3 个 密码 子 位置 分 别 进行 分 析 后 获得 
的 。 碱 基 组 成 不 等 ,第 三 个 密码 子 富 含 AT。3 个 密码 子 位 置 的 转换 / 颠 换 置换 频率 的 比率 估 
计 值 大 小 依次 为 K; >Ki > Ko 。 序 列 距离 的 估计 值 也 是 同样 的 顺序 q. > d; > 2 。 这 类 模 
式 在 蛋白 编码 基因 中 很 常见 ,反映 了 遗传 编码 结构 以 及 基本 上 所 有 和 氨基酸 都 处 于 选择 压力 
之 下 , 同 义 置 换 率 高 于 非 同 义 置换 率 。 当 对 密码 子 逐 一 进行 检测 时 ,两 个 物种 间 有 345 个 密 
码 子 是 一 致 的 ,115 个 密码 子 在 一 个 位 置 上 有 差异 ,其 中 95 个 是 同 义 的 ,20 个 是 非 同 义 的 。10 
个 密码 子 在 两 个 位 置 上 有 差异 ,2 个 密码 子 在 3 个 位 置 上 均 不 相同 。 


X5-11 黄瓜 和 烟草 rbcL 基 因 的 基本 统计 量 


位 置 位 点 We e $ k d 
1 472 0.179 0.196 0.239 0.386 2.202 0.057 
2 472 0.270 0.226 0.299 0.206 2.063 0.026 
3 472 0.423 0.145 0.293 0.139 6.901 0.282 

总 计 1416 0.291 0.189 0.277 0.243 3.973 0.108 


随后 ,1416 个 核 苷 酸 位 点 被 分 为 S=343.5 个 同 义 位 点 以 及 N=1072.5 个 非 同 义 位 点 。 在 两 
条 序列 间 观 察 到 141 个 差异 ,这 些 差异 分 为 S=103.0 个 同 义 变异 和 NM=38.0 个 非 同 义 差 异 。 因 
此 ,在 同 义 和 非 同 义 位 点 上 的 差异 比例 分 别 为 p,=S, /S=0.300 和 pw=Ns/N=0.035。 使 用 JC69 校 
正 后 得 到 4;=0.383 和 d,=0.036, 其 比值 @ = dy/d,=0.095 。 根 据 这 一 估计 ,该 蛋白 处 于 强烈 
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的 选择 压力 之 下 ,在 群体 中 发 生 一 个 非 同 义 突变 的 概率 只 有 同 义 突变 的 9.5%。 





四 、 适 应 性 进化 基因 》》 


AET o 比率 检验 获得 的 大 多 数 正 选择 基因 可 分 为 以 下 3 类 。 第 一 类 包括 针对 病毒 .细菌 、 
真菌 和 寄生 虫 攻击 的 防御 机 制 或 免疫 作用 中 的 宿主 基因 ,以 及 与 破坏 宿主 防御 机 制 有 关 的 
病毒 或 病原 基因 。 例 如 ,前 者 包括 主要 组 织 相 容 性 复合 体 、 淋 巴 细胞 蛋白 CD54、 植 物 中 与 识 
别 病原 有 关 的 R 基 因 及 哺乳 动物 中 反 转 录 病 毒 抑制 剂 TRIM5 o; 后 者 包括 病毒 表面 或 包 膜 蛋 
白 ` 半 原 虫 细 胞 膜 表 面 抗原 以 及 由 植物 天 敌 ( 如 细菌 真菌 、. 卵 菌 .线虫 和 和 昆虫) 产生 的 多 糖 。 
可 以 想见 ,病原 基因 由 于 受到 正 选择 进化 出 不 被 宿主 防御 机 制 识别 的 新 类 型 ,同时 宿主 也 必 
须 适 应 并 识别 出 病原 ,这 就 激发 了 一 场 进化 “军备 竞赛 ,驱动 新 的 替代 突变 在 宿主 和 病原 中 
固定 。 蛇 或 蝎子 毒液 中 的 毒素 用 于 捕获 猎物 ,也 处 于 类 似 选择 压力 下 ,因而 进化 速率 很 快 。 

第 二 类 主要 包括 与 生殖 有 关 的 蛋白 质 或 信息 素 。 一 批 研究 已 检测 到 有 关 精 - 卵 识别 蛋 
白质 及 雄性 或 肉 性 生殖 其 他 方面 的 快速 进化 。 这 些 基 因 上 的 自然 选择 也 可 能 加 速 或 导致 新 
物种 形成 。 

第 三 类 正 选 择 基 因 与 上 述 两 类 有 所 重 盖 ,包括 基因 复制 后 获得 新 功能 的 基因 。 基 因 复 
制 是 基因 、 基 因 组 和 遗传 系统 进化 的 初级 驱动 力 ,被 认为 在 新 基因 功能 进化 中 起 引领 作用 。 
复制 基因 的 命运 由 能 否 为 机 体 带 来 选择 优势 所 决定 ,多 数 复制 基因 被 清除 或 因 有 害 突 变 失 
去 功能 而 退化 为 假 基因 。 由 于 亲 代 基因 需要 不 同 功能 ,有 时 新 拷贝 会 在 适应 进化 驱动 下 获 
得 新 功能 。 已 检测 到 许多 基因 在 基因 复制 后 经 历 加 速 蛋白 质 进化 ,其 中 包括 灵 长 类 DAZ 基 
因 家 族 、 灵 长 类 绒毛 促 性 腺 和 蛋白。 群体 遗传 检验 也 表明 正 选 择 在 复制 核 基 因 早 期 进化 动态 
中 的 重要 作用 。 

还 有 很 多 其 他 基因 也 被 检测 处 于 正 选择 之 下 ,尽管 它们 不 如 那些 参与 到 进化 军备 欧 赛 
中 的 基因 (如 宿主 -病原 持 抗 作用 及 生殖 ) 那 么 多 。 这 也 许 是 基于 ww 比率 的 检验 方法 的 局 限 
性 所 致 , 即 可 能 错过 一 次 性 的 适应 性 进化 。 在 这 种 进化 中 ,一 个 有 利 突变 出 现 并 迅速 在 群体 
中 扩散 开 来 , 接 中 而 至 的 就 是 净化 选择 。 若 要 检测 到 更 多 正 选择 ,也许 需要 改进 能 检测 影响 
某 个 谱系 上 少数 位 点 的 插曲 式 或 局 部 的 进化 方法 。 

统计 检验 不 能 证 明基 因 是 否 真 正经 历 适 应 性 进化 。 具 有 信服 力 的 例子 也 许 要 建立 在 实 
验 验 证 和 功能 检验 上 ,两 者 在 观察 到 的 核酸 变化 与 蛋白 质 折 锥 以 及 表 型 变化 (如 催化 化 学 反 
应 的 效率 不 同 ) 之 间 建 立 直 接 联 系 。 
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Section 3 Molecular Evolution and Bioinformatics 
一 、 基 因 组 进化 概述 》》 


基因 组 学 ( Genomics ) 是 一 门 只 有 十 多 年 历史 的 新 兴学 科 , 发 展 极 为 迅速 ,并 产生 了 许 
多 分 支 学 科 。 随 着 研究 的 不 断 深入 , 它 已 从 结构 基因 组 学 ( structural genomics ) 进入 到 功能 
基因 组 学 ( functional genomics )。 利 用 基因 组 学 研究 的 方法 和 成 果 来 研究 生物 进化 ,也 就 是 
进化 基因 组 学 ( evolutionary genomics ) 所 要 研究 的 问题 , 越 来 越 受 到 进化 生物 学 研究 者 的 

目前 ,尽管 进化 基因 组 学 还 没有 正式 列 在 基因 组 学 的 议事 日 程 上 ,但 也 已 经 有 了 不 少 相 
关 的 研究 ,比较 基因 组 学 ( comparative genomics ) 就 是 其 中 之 一 。 对 不 同 生物 基因 组 结构 的 
异同 及 其 特点 进行 比较 ,除了 在 功能 基因 组 学 的 研究 上 很 有 意义 外 ,还 有 可 能 在 一 定 程 度 上 
了 解 基因 组 的 进化 ,特别 是 基因 组 的 结构 特征 与 生物 复杂 性 的 关系 。 例 如 ,通过 比较 ,发 现 
基因 组 中 和 蛋白质 和 功能 RNA 基 因 的 密度 与 生物 的 复杂 程度 有 一 定 的 负 相 关 。 在 细菌 基因 组 
中 ,基因 的 平均 密度 是 1 个 基因 /1kb; 在 酵母 中 ,是 1 个 基因 /2kh; 而 线虫 是 1 个 基因 /5kb; AE 
是 1 个 基因 /13kb; 到 人 类 则 是 1 个 基因 /40kb。 这 种 密度 的 变化 显然 是 与 基因 组 进化 中 调控 元 
件 和 “ 非 基 因 序 列 ” 的 扩 增 有 关 。 

比较 基因 组 学 的 研究 还 表明 ,基因 和 基因 组 是 由 并 非 很 多 的 基本 结构 单位 (构件 ) 构 成 
的 ,而 这 些 构 件 在 进化 中 被 反复 使 用 (重组 )。 以 形成 新 的 基因 和 基因 组 ,这 就 像 为 数 不 多 的 
化 学 元 素 可 以 组 成 无 数 的 化 学 物质 (分 子 ) 那 样 。 新 的 化 学 分 子 是 通过 已 有 元 素 或 分 子 之 间 
的 化 学 反应 产生 的 ,所 以 ,基因 组 的 进化 有 可 能 以 化 学 反应 作为 其 动态 模型 , 即 新 基因 组 的 
产生 是 通过 已 有 基因 或 基因 组 的 重组 . 重 排 ,重新 建立 新 的 关系 而 达成 。 要 充分 认识 这 种 类 
比 的 意义 ,就 必须 开展 进化 基因 组 学 的 研究 。 

基因 组 的 进化 与 基因 组 的 三 维 结构 之 间 显 然 也 有 很 重要 的 关系 。 人 与 黑猩猩 DNA 序 
列 的 相似 程度 达 99% ,两 者 的 差异 很 可 能 是 在 其 基因 组 的 三 维 结构 (包括 三 维 调控 关系 ) 上 。 
因此 ,进化 基因 组 学 必 将 深入 进行 这 方面 的 研究 。 

为 了 了 解 基因 组 及 其 发 展 变化 的 本 质 ,当然 还 要 研究 与 生命 起 源 有 关 的 最 原始 的 基因 
和 基因 组 的 起 源 ,以 及 其 后 的 进化 模式 与 过 程 ,这 样 ,我 们 就 有 可 能 在 分 子 水 平 上 认识 生物 
进化 的 分 段 途 径 。 总 之 ,进化 基因 组 学 将 是 基因 组 学 中 最 触及 事物 本 质 的 一 个 分 支 。 
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二 、 病 毒 基 因 组 分 析 》》 


对 生物 的 分 类 应 该 体现 其 系统 演化 。 对 病毒 来 说 , 它 的 生命 是 相对 脆弱 的 ,很 难 达到 像 
古 细菌 ,细菌 和 真 核 生物 那样 综合 全 面 的 程度 。 病 毒 也 受 突变 和 自然 选择 的 影响 ,并 且 病 毒 
基因 组 的 进化 速度 远 远 超过 其 他 细胞 的 基因 组 。 有 很 多 证 据 证 明 , 早 在 一 万 年 前 病毒 就 已 
经 存在 ,这 些 证 据 包 括 人 类 的 骨骼 残骸 ,历史 记录 和 遗物 。 然 而 ,远古 病毒 的 DNA 或 RNA 还 
没有 被 找到 。 

RNA 病 毒 基因 组 的 RNA 聚 合 酶 一 般 缺 乏 校正 能 力 。 这 导致 基因 组 的 突变 率 比 DNA 基 因 
组 高 100 万 ~1000 万 倍 。 对 于 DNA 病 毒 , 其 突变 率 一 般 比 宿主 细胞 高 10~1000 倍 。 除 了 高 突变 
率 ,许多 病毒 的 复制 速度 也 是 极其 惊人 的 。 单 个 细胞 能 产生 10 0007 5E HE JL 26 SEE UR 
而 一 个 被 艾滋 病 病毒 感染 的 个 体 一 天 能 产生 10 亿 个 病毒 颗粒 。 许 多 病毒 的 基因 组 由 相对 独 
立 的 多 个 片段 组 成 。 这 些 片段 能 够 在 病毒 复制 过 程 中 随机 重组 ,从 而 在 子 代 病 毒 中 产生 大 
量 不 相同 的 子 类 。 流 感 病毒 几乎 每 年 都 能 引起 大 范围 的 疾病 流行 就 是 这 个 原理 的 体现 。 病 
毒 经 常 处 于 强大 的 选择 压力 下 ,如 宿主 的 免疫 反应 或 抗 病毒 药物 作用 。 因 此 ,艾滋 病 病毒 快 
速 的 突变 和 复制 确保 某 些 病毒 株 通过 突变 产生 对 抗 病毒 药物 的 抗 性 ,而 且 会 经 受 环 境 的 选 
择 而 存活 下 来 。 

病毒 经 过 漫长 的 进化 历程 已 经 能 够 侵入 系统 发 生 树 中 所 有 物种 : 古 细菌 .细菌 和 真 核 
生物 。 植 物 病毒 (番茄 丛 狠 病 毒 ) 动 物 病毒 (如 SV40 病 毒 , 鼻 病毒 和 糊 做 灰质 炎 病 毒 ) 以 及 
VE PRI CRAS PES DX 174 ) 的 衣 壳 蛋白 中 都 有 “有 - 折 春 桶 ”或 “果冻 卷 " 折 又 结构。 除非 发 
生 了 显著 的 趋同 进化 ,否则 这 种 现象 一 般 说 明 这 些 病 毒 是 同 源 的 。 感 染 植物 和 动物 的 反 转 
录 病 毒 具有 双 链 RNA 基 因 组 以 及 封装 它 的 特殊 衣 壳 体 。 有 一 类 喉 菌 体 ( 6 ) 也 具有 这 种 特 
{E ,也 说 明了 感染 不 同 物种 的 病毒 之 间 具 有 同 源 性 。 在 对 这 些 病毒 基因 组 以 及 蛋白 质 的 分 
析 中 并 没有 发 现 序列 相似 性 ,再 次 凸显 了 病毒 基因 组 高 速 进化 的 特点 。 病 毒 基 因 组 的 高 度 
多 样 性 使 我 们 无 法 根据 其 序列 数据 绘制 出 涵盖 所 有 病毒 的 全 面 完 整 的 系统 发 生 树 , 这 反映 
了 病毒 基因 组 形成 历程 中 复杂 的 分 子 进化 事件 。 


三 、 原核 生物 基因 组 比较 >>> 


(一 ) 与 人 类 疾病 相关 的 细菌 分 类 


细菌 和 真 核 生物 已 经 相互 “交战 ” 几 百 万 年 了 。 细 菌 为 了 繁殖 需要 占据 人 体 这 个 营养 
丰富 的 环境 。 典 型 的 细菌 “殖民 地 ”包括 皮肤 呼吸道、 消化 道 (口腔 大肠 入 尿道 和 生殖 系 
统 等 。 据 估计 每 个 人 身上 的 细菌 数目 超过 自身 的 细胞 数目 。 大 多 数 情 况 下 ,这 些 细 菌 对 人 
类 是 无 害 的 。 然 而 ,有 些 细 菌 在 一 定 条 件 下 能 够 导致 感染 ,甚至 带 来 灾难 性 的 后 采 。 最 近 一 
些 年 ,由 于 广泛 使 用 抗生素 导致 了 细菌 抗 药性 的 增强 ,因此 急需 找到 细菌 的 毒性 因子 ,然后 
找到 相应 的 接种 疫苗 。 对 这 个 问题 的 一 个 解决 办 法 就 是 比较 细菌 的 致 病 株 和 非 致 病 株 。 


(二 ) 原核 生物 基因 组 比较 数据 库 
NCBI 提 供 了 一 个 非常 有 效 的 基因 组 比较 工具 ,并 且 使 用 起 来 非常 容易 。 从 基因 组 查询 
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页 面 上 ,选择 果 蝇 ( Drosophila melanogaster ) 就 得 知 到 图 $-5 所 示 的 页 面 。 选 择 TaxPlot ,就 能 
够 将 两 个 基因 组 和 一 个 参考 基因 组 (如 caenorhabditis elegans 和 saccharomyces cerevisiae ) if 
行 比较 。 在 这 个 图 上 ,每 一 个 点 都 代表 参考 基因 组 中 的 一 个 蛋白 质 。x 坐 标 和 y 坐 标 显示 了 
被 比较 蛋白 质 组 中 每 个 蛋白 质 最 佳 匹配 的 BLAST 分 值 。 如 果 和 蛋白 质 都 在 图 的 对 角 线 上 , 表 
明 它 们 在 参考 蛋白 和 输入 蛋白 中 的 分 值 相同 (或 者 几乎 相同 )。 然 而 ,也 有 值得 注意 的 异常 
值 , 代 表 了 两 种 生物 不 同 表 型 的 重要 基因 。 这 些 点 是 可 以 点 击 的 (图 中 带 圆圈 的 数据 点 ) 
TaxPlot 还 能 根据 COG 分 类 系统 规则 在 图 上 标注 颜色 。 
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图 5-5 Taxplot 界 面 示意 图 


在 整个 微生物 基因 组 的 比 对 中 最 大 的 挑战 就 是 来 用 动态 程序 , 比 对 上 百 万 的 碱 基 对 所 
需要 的 大 量 时 间 。 然 而 对 于 基因 组 比 对 来 说 ,这 些 工具 还 比较 初级 。MUMmer 软 件 包 提供 
了 一 个 对 微生物 基因 组 进行 快速 准确 比 对 的 方法 。 最 近 , 经 过 对 算法 改进 后 ,也 能 够 对 真 核 
生物 序列 进行 比 对 。 

MUMmer 将 两 条 序列 作为 输入 。 这 个 算法 找到 了 所 有 的 长 于 一 个 设 定 的 最 小 长 度 值 上 jf 
且 很 好 匹配 的 子 序列 。 根 据 定 义 ,这 些 匹 配 序列 是 最 小 的 ,因为 如 果 将 它们 向 任意 方向 延长 
一 点 就 会 导致 不 匹配 。 

MUMmer 的 输出 结果 由 点 阵 图 组 成 (图 $-6 ), 该 结果 以 最 小 比 对 长 度 150bp 为 序 ,显示 了 
两 个 基因 组 序列 的 比 对 结果 。 结 果 包 括 如 下 内 容 : SNPs; 比 单个 SNP 更 加 分 散 的 序列 区 域 ; 
大 的 插入 片段 (例如 ,经 过 转 座 .序列 逆转 和 水 平 基因 转移 ); 散在 重复 片段 (例如 ,一 个 基因 
组 中 的 复制 ); 片段 串联 重复 (拷贝 数 )。 

大 肠 埃 希 菌 K12 和 大 上 肠 埃 希 菌 0157 : H7( 在 受 污染 的 食品 中 有 这 个 菌株 ,会 导致 如 出 血 
性 结肠 炎 之 类 的 疾病 )。 在 大 约 45 亿 年 前 发 生 分 枝 。 测 序 并 比较 两 个 基因 组 ,发 现 大 肠 埃 希 
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图 5-6 MUMmer 输 出 结果 


菌 0157 : H17 大 约 比 大 上 肠 埃 希 菌 K12 长 了 859 000 个 碱 基 对 。 这 两 个 细菌 有 大 约 4.1Mb 的 共 
同 基 因 组 骨架 ,大 肠 埃 希 菌 0157 : H7 有 另外 1.4Mb 的 序列 (大 部 分 通过 水 平 Bes 
MUMmer 的 输出 结果 对 于 找 出 两 个 基因 组 中 的 共同 区 域 和 反 向 重复 区 域 非常 有 月 


四 、 和 蛋白 质 互 作 网 络 进化 >> 


近年 来 , 随 着 鉴别 蛋白 质 互 作 关 系 的 高 通 量 实验 技术 ( 如 酵母 双 杂 交 , 人 免疫 共 沉 淀 , 基 于 
质谱 的 串联 亲 和 纯 化 等 ) 以 及 生物 信息 学 方法 在 预测 蛋白 互 作 领 域 的 发 展 与 应 用 , 越 来 越 多 
的 蛋白 质 互 作 数 据 涌现 出 来 ,为 进化 研究 提供 了 新 的 视角 

对 和 蛋白质 互 作 网 络 的 进化 分 析 可 分 为 五 个 层面 : E FACT S .和 蛋白质 互 作对 ( protein 
interaction pair ) 模 体 ( motif )、 网 络 模块 ( network module ) 以 BIRT PI 即 按照 包含 重 白 
质 的 数目 将 网 络 进化 问题 分 层 : 第 一 层 是 仅 包 含 一 个 蛋白 的 蛋白 质 个 体 ; 第 二 层 为 包含 两 
个 蛋白 的 蛋白 互 作对 ; 网 络 模 体 般 包含 3-51 PERME, KPA; 网 络 模块 作为 第 四 层 , 相 
对 于 之 前 的 三 层 包 含 的 蛋白 数目 更 多 , 且 可 能 由 模 体 组 成 ; 第 五 层 则 是 整个 网 络 的 进化 分 
析 ,探究 网 络 的 发 生发 展 过 程 


一 ) 网 络 中 的 蛋白 质 个 体 进化 


和 蛋白质 互 作 网 络 对 和 蛋白质 个 体 进化 性 质 的 影响 , 即 蛋白 质 互 作 是 否 会 减 慢 蛋白 质 进 化 
速率 ,是 在 蛋白 质 个 体 层面 上 研究 网 络 进化 的 主要 问题 

由 于 研究 者 选择 的 研究 对 象 多 数 为 酵母 ,尽管 所 选 的 互 作 数据 不 同 , 采 用 的 进化 速率 评 
估 方 法 .寻找 直系 同 源 蛋 白 的 方法 及 所 统计 分 析 方 法 等 不 尽 相 同 , 但 从 现 有 的 研究 成 果 可 以 
得 出 如 下 绪论: 蛋白 连接 度 同 其 进化 速率 之 间 可 能 存在 较 弱 的 负 相 关 关 系 。 因 为 影响 蛋白 
贡 进 化 速率 的 因素 很 多 ,除了 与 网 络 拓扑 性 质 相 关 的 蛋白 连接 度 ( 由 互 作 数目 定义 ), 蛋 白 中 
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心性 (由 介 数 定义 ) 外 ,还 有 可 能 与 蛋白 表达 水 平 , 蛋 白 必 要 性 ,蛋白 质 功 能 及 其 参与 的 生物 
学 过 程 ,蛋白 质 丰 上 度 ,密码 子 适 应 指数 等 有 关 ,并 且 这些 因 素 之 间 存 在 错综复杂 的 依赖 关系 。 


(=) 网 络 中 的 蛋白 互 作对 进化 


互 作 的 两 个 蛋白 质 在 进化 上 是 否 趋向 具有 相似 的 性 质 ? 在 分 子 水 平 上 是 否 趋向 共 进 
化 ? 这 是 网 络 中 和 蛋白 互 作对 进化 研究 要 回答 的 问题 。 

多 年 来 ,研究 者 开发 了 许多 预测 蛋白 质 互 作 的 方法 ,如 比较 基因 组 学 方法 、 利 用 系统 发 
育 树 相似 性 进行 预测 的 方法 .利用 基因 表达 水 平 相 关 性 进行 预测 的 方法 和 同 源 预测 方法 等 ， 
这 些 方 法 多 是 基于 相互 作用 和 集 白 共 进 化 的 思想 。 这 些 预测 算法 的 成 功 ,从 男 一 个 角度 为 互 
作 和 蛋白 具有 共 进 化 的 现象 提供 有 力 证 据 。 目 前 学 术 界 普遍 认同 的 观点 是 : 互 作 的 蛋白 质 倾 
向 于 具有 更 相似 的 进化 速率 , 且 网 络 中 的 蛋白 互 作对 在 表达 水 平等 层次 上 也 可 能 存在 微弱 
的 共 进 化 现象 。 对 于 这 一 观点 的 解释 主要 有 两 种 ,一 种 假设 为 , 共 进 化 是 施加 在 互 作 的 蛋白 
对 上 相似 进化 压力 的 结果 。 相 似 的 进化 压力 可 能 来 源 于 作用 在 这 两 个 互 作 蛋白 对 上 的 相似 
调控 机 制 ,如 协同 转录 和 调控 等 。 这 种 假设 不 仅 适用 于 解释 发 生 直 接 物理 互 作 和 蛋白 对 间 的 
共 进 化 ,对 共享 一 个 生物 学 关系 的 一 组 蛋白 质 的 共 进 化 现象 也 同样 适用 。 男 一 种 假设 为 , 共 
进化 直接 与 互 作 和 蛋白 的 共 适 应 相关 。 即 当 和 蛋白 序列 上 直接 或 者 间接 通过 影响 蛋白 质 折 和 县 而 
参与 互 作 的 位 点 发 生 有 害 突变 时 ,与 其 互 作 的 蛋白 通过 发 生 互补 的 改变 来 维持 两 蛋白 的 互 
作 关 系 ,进而 保持 功能 。 综 合 两 种 假设 , 即 两 种 共 进 化 推动 力 可 能 是 在 不 同 程度 ,不 同 水 平 
和 不 同情 况 下 发 挥 各 自 的 作用 。 


(三 ) 网 络 中 的 模 体 进化 


网 络 模 体 是 指 复 杂 网 络 中 在 不 同位 置 重复 出 现 的 特定 的 相互 连接 模式 ,在 数量 上 显著 
地 高 于 随机 期 望 ,一 般 含 有 3~5 个 节点 。 对 于 网 络 模 体 进化 的 研究 主要 集中 在 探讨 模 体 是 否 
对 其 成 员 蛋 白 进化 具有 约束 作用 。 研 究 表明 , 模 体 成 员 和 蛋白 要 比 非 模 体 成 员 和 蛋白 在 进化 上 
更 具有 保守 性 。 在 不 同 拓扑 结构 模 体 中 ,成 员 蛋 白 的 保守 性 不 同 , 可 能 的 原因 是 不 同 的 模 体 
模式 所 承受 的 进化 约束 显著 不 同 。 


(四 ) 网 络 中 的 模块 进化 


蛋白 质 互 作 网 络 具 有 层次 模块 化 特性 。 功 能 模块 的 最 显著 特点 是 其 往往 表现 出 可 能 在 
功能 和 拓扑 上 互相 联系 ,在 蛋白 互 作 网 络 中 主要 以 蛋白 质 复合 物 的 形式 存在 。 目 前 的 研究 
成 果 表 明 ,网 络 的 模块 化 对 蛋白 质 进 化 可 能 有 约束 作用 ,成 员 蛋 白 之 间 在 进化 速率 ,表达 水 
平等 方面 表现 出 共 进 化 特性 。 类 似 蛋 白质 互 作 预 测 领域 ,许多 功能 模块 预测 算法 (如 比较 基 
因 组 学 方法 ) 都 是 基于 模块 成 员 蛋 白 共 进化 的 思想 ,其 成 功 也 反 过 来 支持 了 功能 模块 成 员 重 
白 的 共 进 化 特点 。 


(五 ) 网 络 的 整体 进化 


研究 蛋白 质 互 作 网 络 整体 进化 的 最 主要 问题 是 蛋白 质 互 作 网 络 的 起 源 。 随 之 而 来 的 问 
题 是 蛋白 质 互 作 网 络 具有 的 无 尺度 (scale-free ) 分 布 , 小 世界 ( small world ) 性 质 和 模块 化 结 
构 等 是 如 何 起 源 和 进化 的 ? 这 些 特性 的 存在 是 生物 体 长 期 进化 过 程 中 自然 选择 的 结果 ,还 
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是 存在 内 在 约束 机 制 使 其 发 生成 为 不 可 避免 的 趋势 ? 

多 年 来 ,学 者 们 先后 提出 了 多 个 无 尺度 和 小 世界 网 络 的 进化 模型 。 目 前 应 用 最 为 广 
泛 的 是 优先 连接 模型 和 复制 -分 歧 模 型 。 优 先 连接 模型 描述 网 络 的 生长 是 通过 不 断 向 
网 络 中 添加 新 的 节点 来 实现 的 ,而 新 添加 的 节点 倾向 于 优先 与 原 有 网 络 中 度 高 的 节点 连 
接 。 这 一 模型 揭示 的 问题 是 蛋白 质 年 龄 与 连接 度 之 间 存 在 的 强烈 而 显著 的 关系 , 即 蛋白 
质 起 源 越 早 ,其 连接 度 越 高 。 并 且 当 控制 表达 水 平 后 ,这 种 关系 并 没有 被 显著 地 削弱 。 
在 复制 -分 歧 模 型 中 ,网 络 中 的 初始 蛋白 质 被 随机 选择 并 复制 , 且 伴 随 该 蛋白 质 参 与 的 
所 有 互 作 。 随 后 ,基因 突变 导致 副本 和 原 蛋 白 逐 渐 发 生 分 歧 , 表 现 为 它们 参与 的 互 作 发 
生 改 变 。 从 生物 信息 学 的 角度 , 则 可 以 理解 为 基因 组 层面 上 的 改变 在 网 络 拓扑 结构 变化 
上 的 体现 。 有 研究 表明 ,酵母 中 至 少 有 40% 的 蛋白 质 互 作 来 源 于 复制 事件 。 而 对 于 蛋白 
质 复合 物 的 起 源 和 进化 研究 显示 ,有 相当 一 部 分 复合 物 是 通过 逐步 的 部 分 复制 而 进化 来 
的 ,并 且 被 复制 的 复合 物 仍然 保持 原 复 合 物 的 核心 功能 ,但 具有 不 同 的 绑 定 特异 性 和 规 
则 ,具体 见 图 5-7。 
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图 5-7 有 蛋白 质 互 作 网 络 进化 图 
第 一 层 表示 网 络 中 的 蛋白 质 个 体 进化 ,表明 蛋白 连接 度 同 其 进化 速率 之 间 存 在 较 弱 的 负 相 关 关 系 。 第 二 层 
表示 网 络 中 的 蛋白 互 作 对 进化 ,揭示 出 互 作 的 蛋白 质 倾向 于 具有 更 相似 的 进化 速率 可 能 由 多 种 因素 导致 。 
第 三 层 表示 网 络 中 的 模 体 进化 , 模 体 成 员 有 蛋白 更 具有 保守 性 。 第 四 层 表示 网 络 中 的 模块 进化 ,成 员 蛋 和 白 之 
间 在 进化 速率 表现 出 共 进 化 特性 。 第 五 层 表示 网 络 的 整体 进化 中 的 复制 -分 歧 模 型 


五 、 代 谢 网 络 进化 分 析 >> 


各 种 高 通 量 技术 和 代谢 通路 数据 库 的 发 展 使 得 分 析 代 谢 网 络 进 化 ( metabolic network 
evolution ) 成 为 可 能 。 一 般 说 ,生物 网 络 具有 稳健 性 和 进化 性 的 一 个 主要 原因 归功 于 其 模块 
化 组 织 。 模 块 定义 为 一 组 连接 非常 紧密 的 基因 或 酶 的 集合 ,功能 相对 独立 ,而 模块 与 模块 之 
间 的 连接 较为 稀 跑 。 从 仅 有 儿 个 基因 的 简单 网 络 能 够 利用 计算 机 模拟 的 手段 构建 出 具有 几 
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百 个 节点 上 千 条 边 的 大 网 络 。 另 外 ,有 些 研究 通过 比较 多 个 物种 的 拓扑 结构 对 代谢 网 络 的 
进化 机 制 进行 探讨 , 发现 不 同 代 谢 通路 的 拓扑 特征 提供 不 同 的 系统 发 育 信息 。 


(一 ) 代谢 网 络 模块 性 的 进化 分 析 


一 个 生物 网 络 中 的 模块 包含 很 多 元 素 ( 例 如 和 蛋白 质 或 反应 ), 这 个 模块 形成 了 一 个 结构 
上 的 子 系统 ,并 且 有 其 独特 的 功能 。 在 代谢 网 络 中 ,存在 很 多 小 的 ,高 连接 度 的 模块 ,这 些 模 
块 又 分 层 组 合成 为 大 的 单元 。 对 于 模块 的 进化 ,目前 主要 有 两 个 假设 : 一 是 模块 倾向 于 正 选 
择 , 因 为 已 经 限定 好 的 模块 能 维持 细胞 的 功能 ,通过 模块 的 进化 变化 能 够 提升 其 可 进化 性 ; 
二 是 尽管 模块 不 能 直接 通过 选择 进化 ,但 模块 之 间 在 进化 上 存在 一 致 性 ,还 能 通过 其 他 可 以 
被 选择 的 性 质 , 例 如 由 水 平 基 因 转 移 引 起 的 基因 聚 类 的 加 速 ,多 效 性 的 最 小 化 ,和 对 新 环境 
的 适应 性 等 。 

由 于 生物 之 间 的 遗传 相关 ,其 代谢 网 络 也 存在 着 一 定 的 相似 性 ,所 以 系统 发 育 相 近 的 生 
物 代谢 网 络 模块 也 应 该 是 相近 的 。 伴 随 模 块 内 变异 逐渐 增多 ,物种 之 间 的 差异 也 就 越 大 , 相 
反 亦 然 。 如 果 对 不 同 物种 代谢 模块 统计 相应 得 分 ,就 可 以 根据 这 个 得 分 构建 生物 代谢 系统 
发 育 树 。 但 对 模块 的 变异 量化 研究 存在 一 定 难 度 , 如 何 计算 每 种 生物 代谢 网 络 的 得 分 是 研 
究 关键 。 

Anat Kreimer 等 人 成 功 解决 了 这 个 问题 ,他 们 根据 模块 的 特性 ,使 用 Newman 的 算法 计算 
代谢 网 络 中 模块 的 得 分 ,根据 每 个 物种 计算 得 到 的 代谢 模块 分 数 建立 距离 矩阵 ,形成 了 如 下 
图 (图 $-8 ) 所 示 的 系统 发 育 树 
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(=) 代谢 与 环境 互 作 的 进化 分 析 
代谢 网 络 一 般 是 在 一 定 的 生化 环境 下 行使 功能 ,同时 通过 吸收 和 分 泌 各 种 有 机 和 无 机 
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的 化 合 物 来 与 环境 发 生 互 作 。 例 如 在 网 络 内 部 新 陈 代谢 流动 性 的 分 布 或 生命 体 的 增长 率 都 
是 通过 这 种 作用 来 完成 。 

和 环境 的 这 种 相互 作用 在 一 定 程度 能 够 在 代谢 网 络 的 结构 进化 上 反映 ,所 以 这 些 代谢 
网 络 不 应 只 是 单单 推断 代谢 功能 ,还 应 当 能 够 观察 到 物种 和 环境 互 作 进化 的 现象 。 在 分 析 
代谢 网 络 的 拓扑 结构 时 ,有 一 类 化 合 物 是 通过 外 源 获得 ,这 类 化 合 物 定 义 为 “种 子 集合 "。 如 
果 一 个 物种 的 环境 能 够 决定 其 代谢 反应 ,那么 这 些 “ 种 子 集合 ”就 是 代谢 网 络 与 外 界 环 境 之 
间 一 个 很 好 的 代理 (图 5-9 )。 


Environment 


SS Network Boun, dar; 
Cs 


wet 





= ANCUS pÉ 
> 5E EY Ss 

图 5-9 代谢 与 环境 互 作 的 进化 分 析 示 意图 
在 代谢 网 络 中 鉴定 种 子 复合 : A. 代 谢 网 络 与 环境 相互 作用 的 示意 图 ,种 子 是 用 红色 标记 ; B. 代 谢 网 络 中 种 子 
获得 过 程 。 网 络 首先 用 kosaraju 的 强 连通 组 分 (SCC ) 的 方法 分 解 , 子 网 中 的 源 组 分 就 是 要 找 的 种 子 。 图 中 
的 源 组 分 是 用 红色 表示 的 ,节点 颜色 的 饱和 程度 代表 种 子 的 置信 程度 ; C.Buchnera 代 谢 网 络 图 ,红色 为 种 子 
复合 物 


每 种 生物 的 代谢 网 络 种 子 集合 是 不 同 的 ,根据 集合 中 的 基因 在 这 种 生物 是 否 存在 可 以 
构造 进化 的 距离 矩阵 。 因 为 在 进化 过 程 会 有 新 的 化 合 物 以 种 子 或 者 非 种 子 的 身份 加 入 到 代 
谢 网 络 中 ,如 果 是 以 种 子 的 身份 被 整合 到 代谢 网 络 中 ,这 个 种 子 存在 的 状态 可 能 不 会 太 长 ， 
要 么 从 代谢 网 络 中 被 拿 掉 , 要 么 快速 变 为 非 种 子 化 合 物 。 
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Section 4 Reconstructing the Origin and the Diffusion of the SARS Epidemic 


2003 年 2 月 28 日 ,暴发 一 场 大 规模 的 流行 系 疾病 ,经 确认 ,命名 为 急性 呼吸 系统 综合 征 

(Severe Acute Respiratory Syndromes, SARS )。 同 年 3 月 15 日 , WHO 发 布 全 球 和 警告 , 称 SARS 为 
“世界 范围 的 健康 威胁 ”。 他 们 警告 可 能 的 地 点 包括 加 拿 大 .印度尼西亚 SEED .新 加 坡 e 

国 和 越南 。 

流行 病 的 起 源 : 尽管 SARS 的 起 源 和 原因 还 不 知道 ,但 应 该 离 我 们 知道 的 时 间 不 远 ,我们 
通过 分 析 多 个 SARS 基 因 组 就 可 以 知道 这 个 疾病 是 怎样 发 生 和 它 的 起 源 以 及 如 何在 许多 国 
家 扩散 的 。 在 2003 年 3 月 的 第 3 周 ,美国 .加拿大 德国 及 中 国 香港 分 别 独 立 的 从 SARS 患 者 身 
上 分 离 出 新 的 冠状 病毒 (SARS-CoV )。 

通过 分 析 大 量 的 完整 病毒 基因 组 数据 集 , 可 以 回答 我 们 很 多 重要 的 问题 。 这 里 ,我 们 也 
将 提出 一 些 工 具 来 回答 这 些 问题 中 的 一 部 分 。 是 怎样 一 种 病毒 导致 了 这 样 一 场 流 行 病 ? 这 
种 病毒 的 原始 宿主 是 什么 ”跨越 物种 障碍 的 时 间 和 地 点 ?是 怎样 一 个 关键 突变 让 这 种 转换 
成 为 可 能 ? 

为 了 回答 这 些 问 题 ,我 们 首先 要 了 解 一 些 系统 发 生 分 析 关 键 算法 ,这 些 在 前 面 章 节 中 
已 经 提 到 过 ,然后 把 这 些 算法 应 用 于 2003 年 获得 的 SARS 数 据 ( 所 有 这 些 数据 都 可 从 Genbank 
获得 )。 

1. SARS 基 因 组 ”SARS-CoV 基 因 组 是 在 2003 年 4 月 由 加 拿 大 团队 获得 的 ,29 751bp 的 单 
链 RNA 序 列 。 我 们 可 以 通过 GenBank 获 得 这 个 数据 (查询 编号 为 AY274119.3 )。 在 图 5-10 中 
提供 了 该 病毒 的 基因 图 谱 。 其 GC 含量 大 概 是 41%, 是 已 经 公布 的 冠状 病毒 基因 组 GC 含量 范 
围 之 内 的 。 并 且 由 一 个 典型 的 冠状 病毒 结构 ,按照 一 定 的 顺序 排列 $ 个 或 者 6 个 基因 。 

2. SARS 流 行 发 生 重 构 ”在 SARS 流 行 病 发 生 的 时 候 , 有 关 其 起 源 和 本 质 等 许多 关键 
的 问题 都 可 以 通过 基因 组 序列 分 析 来 获得 。 在 2003 年 早期 多 个 团体 就 已 经 获得 和 发 布 了 
SARS 的 序列 ,并 以 此 作为 基础 作为 探寻 流行 病 起 源 和 扩散 ,现在 我 们 可 以 用 GenBank 中 的 许 
多 病毒 序列 来 研究 这 次 流行 病 。 我 们 选取 了 13 条 已 知 获取 时 间 和 地 点 的 序列 ,然后 展示 如 
何 用 这 些 序列 来 挖掘 这 次 流行 病 的 信息 

鉴定 宿主 : SARS 病 毒 在 早期 被 认为 是 冠状 病毒 ， 和 已 知 其 他 冠状 病毒 有 相同 序列 的 基 
因 。 然 而 , 它 又 是 完全 不 同 于 其 他 已 知人 类 冠状 病毒 ,因此 ,很 可 能 是 从 其 他 动物 中 起 源 的 。 
我 们 使 用 多 种 动物 冠状 病毒 的 蛋白 质 构建 了 邻接 树 ,其 中 包括 了 在 果子 狸 中 发 现 的 冠状 病 
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毒 。SARS 看 起 来 和 果子 狸 冠状 病毒 
使 用 表 5-12 的 13 个 基因 组 ,我 们 
携带 的 ,而 是 起 源 于 果子 狸 , 然 后 在 人 类 
算 的 距离 矩阵 并 且 用 核 昔 酸 序列 做 全 局 比 对 进行 校正 作为 遗传 距 


表 5-12 SARS 病 毒 发 生 时间 及 地 点 调查 表 


Table 


Name of isolate 





GZ01 
ZS-A 
ZS-C 
GZ-B 
HZS-2A 
GZ-50 
CUHK-WI 
Urbani 

Tor 2 
Sin2500 
TWI 
CUHK-ACOI 


Palm civet 


从 这 棵 树 上 


Pair-wise distances ( splice protein of sequences ) 


Acc.number 


AY278489 
AY394997 
AY395004 
AY394978 
AY394983 
AY304495 
AY278554 
AY278741 
AY274119 
AY283794 
AY291451 
AY345986 
AY627048 


,我 们 能 够 了 解 这 次 
以 看 到 所 有 早期 的 病例 都 是 ; 
条 序列 是 完全 一 致 





8 10 


图 5-10 SARS 病毒 两 两 比 对 遗传 距离 


Date 





DEC-12-2002 
DEC-22-2002 
JAN-04-2003 
JAN-24-2003 
JAN-31-2003 
FEB-18-2002 
FEB-21-2003 
FEB-22-2003 
FEB-27-2003 
MAR-01-2003 
MAR-08-2003 
MAR-19-2003 


流行 病 的 整个 过 程 
ETE) ARG, 


x 10° 
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中 传播 


这 种 疾病 并 不 是 通过 乌 类 


这 个 距离 矩阵 是 通过 Jukes-Cantor 模 型 计 


er 
5 


Name, location, and sampling date of SARS virus isolates used in our case study 


Location 


Guangzhou ( Guangdong ) 
Zhongshan ( Guangdong ) 
Zhongshan ( Guangdong ) 
Guangzhou ( Guangdong ) 
Guangzhou Hospital 
Guangzhou ( Guangdong ) 
Hong Kong 

Hanoi 

Toronto 

Singapore 

Taiwan 

Hong Kong 


Palm civet 


如 果 把 果子 狸 作为 外 类 群 ,我 们 可 


FF Hotel Metropole 冠 状 病毒 几乎 和 它们 中 的 
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因为 我 们 已 经 知道 每 个 测序 的 SARS 病 毒 收 集 的 时 间 ,这 样 就 能 观察 到 经 过 若干 时 间 突 
变 的 过 程 。 方 便 起 见 ,我 们 使 用 了 spike 和 蛋白 质 对 应 的 开放 读 码 框 。 相 对 于 从 果子 狸 获 得 的 
序列 ,我 们 看 到 其 遗传 距离 随 着 时 间 在 粗略 按 线性 模式 逐渐 提高 ( x 轴 表示 时 间 ,原点 代表 
2003 年 1 月 1 日 )。 如 果 我 们 在 这 些 数据 中 插入 最 小 二 乘法 的 拟 合 曲线 ,就 可 以 估计 这 次 流行 
病 起 源 的 大 概 时 间 。 任 何 一 个 在 零点 附近 日 期 都 可 能 是 开始 的 时 间 ,估计 在 2002 年 9 月 16 日 
到 2003 年 1 月 1 日 之 间 。 这 种 方法 是 比较 粗糙 的 ,而 且 其 中 很 多 假设 我 们 还 都 没有 证 实 ,但 仍 
然 给 我 们 一 个 很 可 能 的 时 间 点 ,最 时 的 病例 报道 可 以 追溯 到 2002 年 的 下 半年 。 
(HF) 
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CHAPTER 6 
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NEXT-GENERATION SEQUENCING DATA 
ANALYSIS 


DNA 测 序 技术 已 广泛 应 用 于 生物 学 研究 的 各 个 领域 ,很 多 生物 学 问题 都 可 以 借助 
高 通 量 DNA 测 序 技术 予以 解决 。 这 几 年 ,大 规模 平行 测序 平台 ( massively parallel DNA 
sequencing platform ) 已 经 发 展 为 主要 的 测序 技术 ,这 项 测序 技术 的 出 现 不 仅 令 DNA 测 
序 费 用 降 到 了 很 低 , 还 让 基因 组 测序 这 项 以 前 专属 于 大 型 测序 中 心 所 拥有 的 “特权 ”能 
够 被 众多 研究 人 员 分 享 。 同 时 新 一 代 DNA 测 序 技术 有 助 于 人 们 更 全 面 、 更 深入 地 分 析 
基因 组 转录 组 及 蛋白 质 之 间 交 互 作用 组 的 各 项 数据 ,今后 ,各 种 测序 将 成 为 一 项 广 
泛 使 用 的 常规 实验 手段 ,这 有 望 给 生物 学 和 生物 医学 研究 领域 带 来 革命 性 的 变 
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第 一 节 


全 基因 组 测序 与 重 测序 





基因 组 测序 工作 始 于 20 世 纪 70 年 代 。1990 年 启动 的 人 类 基因 组 计划 标志 着 基因 组 测序 
的 革命 性 发 展 , 在 人 类 基因 组 计划 开展 过 程 中 开发 出 的 一 系列 关键 技术 ,如 物理 图 谱 的 构建 、 
序列 拼接 ,海量 序列 数据 存储 与 分 析 等 ,为 其 他 生物 基因 组 测序 计划 的 顺利 完成 提供 了 重要 
的 支撑 。 至 今 ,已 经 有 较 完整 的 全 基因 组 序列 数据 的 物种 包括 超过 39 种 类 病毒 .2115 种 病毒 、 
58 种 古 细菌 .1269 种 细菌 ,69 种 真菌 .29 种 原生 生物 .10 种 植物 和 78 种 动物 (图 6-1 )。 随 着 第 二 
代 测 序 技术 的 迅猛 发 展 ,生物 科学 界 也 开始 越 来 越 多 地 应 用 第 二 代 测 序 技术 来 解决 生物 学 
问题 。 比 如 在 基因 组 水 平 上 对 还 没有 参考 序列 的 物种 进行 从 头 测序 ( de novo sequencing ), 获 
得 该 物种 的 参考 序列 ,为 后 续 研 究 和 分 子 育种 莫 定 基础 ; 对 有 参考 序列 的 物种 ,进行 全 基因 
组 重 测序 ( resequencing ), 在 全 基因 组 水 平 上 扫描 并 检测 突变 位 点 ,是 发 现 个 体 差 异 的 分 子 基 
础 。 在 转录 组 水 平 上 进行 全 转录 组 测序 ( whole transcriptome resequencing ), 从 而 开展 可 变 剪 
接 .编码 序列 单 核 昔 酸 多 态 性 (ecSNP )、 等 位 特异 表达 等 研究 ; 或 者 进行 小 分 子 RNA 测 序 ( small 
RNA sequencing ), 通 过 分 离 特 定 大 小 的 RNA 分 子 进行 测序 ,从 而 发 现 新 的 microRNA 分 子 。 在 
转录 组 水 平 上 ,与 染色 质 免疫 共 沉 淀 ( ChIP ) 和 甲 基 化 DNA 免 疫 共 沉淀 ( MeDIP ) 技 术 相 结合 ， 
从 而 检测 出 可 能 与 特定 转录 因子 结合 的 DNA 区 域 和 基因 组 上 的 甲 基 化 位 点 。 

1977 年 化 学 家 sanger 发 明了 双 脱 氧 链 终止 DNA 测 序 技术 ,并 因此 获得 1980 年 的 诺 贝尔 化 
学 奖 。 这 项 技术 一 直 沿 用 至 今 ,被 应 用 于 基因 研究 的 各 个 领域 。 为 人 类 基因 组 计划 ( HGP ) 
的 完成 立 下 了 汗马功劳 。 

测序 是 根据 核 背 酸 在 某 一 固定 的 点 开始 ,随机 在 某 一 个 特定 的 碱 基 处 终止 ,并 且 在 每 
个 碱 基 后 面 进行 变 光 标记 ,产生 以 AT、C、G 结 束 的 四 组 不 同 长 度 的 一 系列 核 苷 酸 , 然 后 在 
尿素 变性 的 PAGE 胶 上 电泳 进行 检测 ,从 而 获得 可 见 的 DNA 碱 基 序列 。Sanger 法 测序 的 原理 
就 是 ,每 个 反应 含有 所 有 四 种 脱氧 核 苷 酸 三 磷酸 ( dNTP ) 使 之 扩 增 ,并 混入 限量 的 一 种 不 同 
的 双 脱 氧 核 背 三 磷酸 ( dd NTP ) 使 之 终止 。 由 于 ddNTP 缺 乏 延 伸 所 需要 的 3” -OH 基 团 ,使 延 
长 的 寡 聚 核 背 酸 选择 性 地 在 C、A、T 或 C 处 终止 ,终止 点 由 反应 中 相应 的 双 脱 氧 而 定 。 每 一 
种 dNTPs 和 ddNTPs 的 相对 浓度 可 以 调整 ,使 反应 得 到 一 组 长 几 个 至 千 以 上 个 ,相差 一 个 碱 基 
一 系列 片段 。 它 们 具有 共同 的 起 始点 ,但 终止 在 不 同 的 核 苷 酸 上 ,可 通过 高 分 辨 率 变 性 凝 胶 
电泳 分 离 大 小 不 同 的 片段 , 凝 胶 处 理 后 可 用 X- 光 胶片 放射 自 显 影 或 非 放射 性 核 素 标记 进行 
检测 。 
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1995 










物种 ”测序 中 草图 完成 图 草图 + 完成 图 
类 病毒 39 39 


病毒 Zus 201 ea 基因 组 测序 技术 储备 阶段 
DES 32 6 52 58 

细菌 638 563 706 1, 269 

蓝藻 16 18 33 51 

真菌 35 59 10 69 

原生 生物 24 23 6 29 模式 生物 和 人 类 基因 组 测序 
植物 

动物 

总 数 


图 6-1 基因 组 测序 发 展 概况 


20 世 纪 末 ,测序 速度 与 质量 得 到 了 进一步 的 提高 。 第 一 ,平板 电泳 分 离 技 术 被 毛细 管 电 
泳 所 取代 ; 第 二 ,通过 更 高 程度 的 并 行 化 使 得 同时 进行 测序 的 样本 数量 增加 。 使 用 毛细 管 
蔡 代 平 板 凝 胶 取 消 了 手工 上 样 ,降低 了 试剂 的 消耗 ,提升 了 分 析 的 速度 。 另 外 ,紧凑 的 毛细 
管 电泳 设备 的 形式 更 易于 实现 并 行 化 ,可 以 获得 更 高 的 通 量 。ABI3730 测 序 仪 和 Amersham 
Mega-BACE 分 别 可 以 在 一 次 运行 中 分 析 96 个 或 384 个 样本 。 这 一 代 测 序 仪 在 人 类 基因 组 计 
划 DNA 测 序 的 后 期 阶段 起 到 了 关键 的 作用 ,而 且 由 于 其 在 原始 数据 质量 以 及 序列 读 长 方面 
具有 优势 。 加 速 了 人 类 基因 组 计划 的 完成 。DNA 测 序 技术 经 过 30 多 年 的 发 展 ,目前 已 经 到 
了 第 三 代 , 三 代 测 序 技术 有 各 自 的 优势 。 通 过 几 十 年 的 逐步 改善 ,第 一 代 测 序 仪 的 读 长 可 以 
超过 1000bp ,原始 数据 的 准确 率 可 以 高 达 99.999% ,每 天 的 数据 通 量 可 以 达到 600 000 碱 基 。 
因此 Sanger 法 第 一 代 测 序 技术 仍 在 广泛 使 用 ,并 且 对 于 少量 的 序列 来 说 , 仍 是 最 好 的 选择 。 
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新 一 代 测序 技术 和 工作 流程 


Section 2 Work Flow of Next-Generation Sequencing 


高 通 量 测序 技术 是 对 传统 测序 一 次 革命 性 的 改变 ,一 次 对 几 十 万 到 几 百 万 条 DNA 分 子 
进行 序列 测定 ,因此 在 有 些 文献 中 称 其 为 下 一 代 测 序 技术 ( next generation sequencing ) 足见 
其 划时代 的 改变 ,同时 高 通 量 测序 使 得 对 一 个 物种 的 转录 组 和 基因 组 进行 细致 全 貌 的 分 析 
成 为 可 能 ,所 以 又 被 称 为 深度 测序 ( deep sequencing )。 

高 通 量 测序 可 以 帮助 研究 者 跨 过 文库 构建 这 一 实验 步骤 ,避免 了 亚 克 隆 过 程 中 引入 的 
偏差 。 依 靠 后 期 强大 的 生物 信息 学 分 析 能 力 , 对 照 一 个 参 比 基因 组 ( reference genome ) 高通 
量 测序 技术 可 以 非常 轻松 完成 基因 组 重 测序 ( resequencing ),2007 年 Van Orsouw 等 人 结合 改 
进 的 AFLP 技 术 和 454 测 序 技术 对 玉米 基因 组 进行 了 重 测序 ,该 重 测序 实验 发 现 的 超过 75% 的 
SNP 位 点 能 够 用 SNPWave 技 术 验 证 ,提供 了 一 条 对 复杂 基因 组 特别 是 含有 高 度 重复 序列 的 
植物 基因 组 进行 多 态 性 分 析 的 技术 路 线 。2008 年 Hillier 对 线虫 CB4858 品 系 进行 Solexa 重 测 
序 , 寻 找 线 虫 基因 组 中 的 SNP 位 点 和 单位 点 的 缺失 或 扩 增 。 但 是 也 应 该 看 到 ,由 于 高 通 量 测 
序 读 取 长 度 的 限制 ,使 其 在 对 未 知 基因 组 进行 从 头 测 序 ( de novo sequencing ) 的 应 用 受到 限 
制 ,这 部 分 工作 仍然 需要 传统 测序 ( 读 取 长 度 达 到 850 碱 基 ) 的 协助 。 但 是 这 并 不 影响 高 通 量 
测序 技术 在 全 基因 组 mRNA 表达 谱 , microRNA IAF, ChIP-chip 以 及 DNA 甲 基 化 等 方面 的 
应 用 。 

2008 年 Mortazavi 等 人 对 小 鼠 的 大 脑 、 肝 脏 和 骨骼 肌 进 行 了 RNA 深 度 测序 ,这 项 工作 展示 
了 深度 测序 在 转录 组 研究 上 的 两 大 进展 ,表达 计数 和 序列 分 析 。 对 测 得 的 每 条 序列 进行 计 
数 获得 每 个 特定 转录 本 的 表达 量 , 是 一 种 数码 化 的 表达 谱 检测 ,能 检测 到 丰 度 非常 低 的 转录 
本 。 分 析 测 得 的 序列 ,有 大 于 90% 的 数据 显示 落 在 已 知 的 外 显 子 中 ,而 那些 在 已 知 序列 之 外 
的 信息 通过 数据 分 析 展 示 的 是 从 未 被 报道 过 的 RNA 剪 切 形式 ,3” 端 非 翻译 区 ,变动 的 启动 
子 区 域 以 及 潜在 的 小 RNA 前 体 , 发 现 至 少 有 3500 个 基因 拥有 不 止 一 种 剪 切 形式 。 而 这 些 信 
息 无 论 使 用 芯片 技术 还 是 SAGE 文 库 测序 都 是 无 法 被 发 现 的 。 

高 通 量 测序 男 一 个 被 广泛 应 用 的 领域 是 小 分 子 RNA 或 非 编码 RNA( ncRNA ) 研究 。 测 
序 方 法 能 轻易 地 解决 芯片 技术 在 检测 小 分 子 时 遇 到 的 技术 难题 ( 短 序列 ,高 度 同 源 ), 而 且 小 
分 子 RNA 的 短 序列 正好 配合 了 高 通 量 测序 的 长 度 , 使 得 数据 “不 浪费 ” ,同时 测序 方法 还 能 在 
实验 中 发 现 新 的 小 分 子 RNA。 在 衣 藻 .斑马 鱼 . 果 蝇 .线虫 人 和 黑猩猩 中 都 已 经 成 功 地 找到 
了 新 的 小 分 子 RNA。 在 线虫 中 获得 了 40 万 个 序列 ,通过 分 析 发 现 了 18 个 新 的 小 RNA 分 子 和 
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一 类 全 新 的 小 分 子 RNA， 

在 DNA 一 蛋白 质 相互 作用 的 研究 上 ,染色 质 免 疫 沉 演 一 深度 测序 ( ChIP-seq ) 实 验 也 展 
示 了 其 非常 大 的 潜力 。 染 色 质 免疫 沉淀 以 后 的 DNA 直 接 进 行 测序 ,对 比 ref seq 可 以 直接 获得 
蛋白 与 DNA 结 合 的 位 点 信息 , 相 比 ChIP-chip, ChIP-seq 可 以 检测 更 小 的 结合 区 段 ,未知 的 结 
合 位 点 .结合 位 点 内 的 突变 情况 和 蛋白 亲 合 力 较 低 的 区 段 


一 、 新 一 代 测 序 法 和 常见 的 测序 仪 》》 


最 近 市 面 上 出 现 了 很 多 新 一 代 测 序 仪 产品 ,例如 454 基 因 组 测序 仪 、Hlumina 测 序 仪 、 
SOLiD 测 序 仪 、Polonator 测 序 仪 以 及 HeliScope 单 分 子 测序 仪 。 所 有 这 些 新 型 测序 仪 都 使 用 了 
一 种 新 的 测序 策略 一 一 循环 芯片 测序 法 (cyclic-array sequencing ), 也 可 将 其 称 为 “新 一 代 测 
序 技术 或 者 第 二 代 测 序 技术 ”。 

所 谓 循环 芯片 测序 法 ( 图 6-2 ), 简 言 之 就 是 对 布 满 DNA 样 品 的 芯片 重复 进行 基于 DNA 的 
聚合 酶 反应 (模板 变性 .引物 退火 杂交 及 延伸 ) 以 及 荧光 序列 读 取 反应 。2005 年 ,有 两 篇 论文 
曾 对 这 种 方法 做 出 过 详细 介绍 。 与 传统 测序 法 相 比 ,循环 芯片 测序 法 具有 操作 更 简易 .费用 
更 低廉 的 优势 ,于 是 很 快 就 获得 了 广泛 的 应 用 。 





a DNA fragmentation b DNA fragmentation 
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In vivo cloning and amplitication In vivo adaptor ligation 
Cycle sequencing Generation of polony array 


3"-... GACTAGATACGAGCGTGA...-5' ( template ) 
5"-... CTGAT 


EE 


( primer ) 








eh 
Am 
Polymerase T S 
dNTPs ( E 
Labeled ddNTPs CTGATCTATGCTCG 
Electrophorsesis Cyclic array sequencing 
( 1 read/capillary ) ( »10^ reads/array ) 
Cycle 1 Cycle 2 Cycle 3 
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E MNA 
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图 6-2 ”Sanger 测序 法 和 新 一 代 测 序 技 术 工 作 流程 图 
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在 开发 新 型 高 通 量 、 高 并 行 运行 方法 时 碰 到 的 一 个 关键 问题 是 ,如 何 将 反应 试剂 同时 加 
入 数量 如 此 之 多 的 各 个 反应 体系 中 ?” 在 焦 磷 酸 测序 的 过 程 当中 需要 反复 加 入 不 同 的 碱 基 以 
供 测 序 反 应 使 用 ,而 当时 的 自动 化 加 样 设备 无 法 有 效 地 做 到 对 这 么 多 的 反应 体系 同时 循环 
加 样 。 于 是 ,开发 一 种 全 新 的 高 密度 并 行 处 理 方法 这 一 重要 课题 又 再 一 次 摆 在 了 科研 人 员 
的 面前 。 这 一 次 ,我 们 找到 了 一 个 非常 简单 但 是 又 很 巧妙 地 方法 。 在 高 密度 的 反应 芯片 表 
面 使 用 层 流 (laminar flow ) 加 样 方式 ,反应 试剂 会 通过 扩散 作用 很 好 地 进入 每 一 个 反应 体系 ， 
而 且 也 可 以 用 层 流 的 方式 洗 去 多 余 的 反应 试剂 。 现 在 ,所 有 的 新 一 代 测 序 仪 都 采用 了 这 种 
层 流 加 样 方法 。 

为 了 将 每 个 单独 的 测序 反应 都 分 隔 开 来 ,一 开始 使 用 平板 (芯片 ), 不 过 在 平板 上 平均 每 
一 平方 厘米 的 面积 上 最 多 只 能 同时 进行 数 百 至 数 千 个 反应 。 但 我 们 希望 达到 的 是 在 每 平 
方 厘米 的 面积 上 同时 进行 100 万 个 测序 反应 ,这 样 才能 令 测序 仪 小 型 化 ,同时 节省 试剂 并 进 
行 快速 成 像 和 测序 。 为 了 实现 更 高 密度 的 测序 反应 ,我 们 在 平板 上 制作 了 很 多 小 孔 , 将 每 
个 反应 体系 都 安置 在 这 些小 孔 中 ,这 些小 孔 都 足够 深 ,足以 分 隔 每 个 反应 体系 。 虽 然 这 种 
方法 极 大 提高 了 测序 反应 的 密度 ,缩小 了 平板 的 面积 ,但 是 要 达到 高 通 量 的 要 求 还 是 需要 
60mm x 60mm 大 小 的 芯片 才 行 。 

针对 图 像 采 集 问题 使 用 了 商业 化 的 天 文学 照相 ( astrological grade camera ) #844 , CE FB, fay 
耦合 装置 (CCD ) 的 表面 连接 上 光纤 束 ( fiber-optic bundle )。 这 些 光 纤 是 锥 形 排列 的 ,这 样 可 
以 将 大 范围 的 光 信 和 号 都 传输 到 CCD 表 面 上 很 小 的 一 个 范围 。 采 取 下 面 两 个 步骤 ,我 们 就 可 
以 制 成 含有 高 密度 小 孔 的 芯片 : 先 将 光纤 束 连 接 到 类 似 于 载 玻 片 一样 的 一 次 性 芯片 上 ,然后 
用 酸 蚀 刻 ( acid etching procedure ) 技术 在 玻 片 的 另 一 面 打 上 小 孔 。 这 种 酸 蚀刻 技术 是 根据 
制作 生物 传感器 的 技术 改进 而 来 的 。 


二 、 样 品 准备 》》 


要 想 实 现 高 通 量 基因 组 测序 ,只 对 测序 步骤 进行 优化 还 是 远 远 不 够 的 。 人 类 基因 组 计 
划 花 费 经 费 中 有 很 大 一 部 分 都 用 在 了 测序 样品 制备 阶段 。 当 时 即使 是 采用 最 简单 的 制备 
样品 方法 也 需要 将 目标 片段 克隆 到 细菌 中 , 挑 克隆 ,再 转 到 96 孔 板 ,然后 进行 克隆 扩 增 , 提 
取 质 粒 ,制备 测序 模板 。 这 种 工作 流程 既 耗 时 又 耗 钱 。 如 果 采 用 新 型 的 文库 制备 方法 就 可 
以 极 大 地 节省 这 部 分 开支 ,这 种 新 型 的 方法 是 先 分 离 基因 组 DNA ,随机 切割 成 小 片段 分 子 ， 
然后 通过 有 限 稀释 ( limiting dilution ) 和 聚合 酶 扩 增 反应 , 即 体外 克隆 方式 ( clones without 
bacterial ) 制备 模板 片段 。 这 样 ,从 模板 制备 到 最 后 的 测序 反应 整个 过 程 都 能 够 在 体外 完成 。 

文库 制备 包括 以 下 几 个 步骤 ,首先 随机 切割 样品 基因 组 ,获得 大 量 DNA 片 段 ,然后 接 上 
接头 进行 扩 增 反应 。 新 一 代 测 序 技术 的 样品 制备 程序 和 Craig Venter 等 人 的 鸟 枪法 样品 制备 
程序 有 着 本 质 的 差别 。 通 过 乳 靡 PCR( emulsion PCR ) 或 桥 式 PCR( bridge PCR ) 等 方法 对 文 
库 进 行 扩 增 , 获 得 测序 模板 ,而 没有 鸟 枪法 中 的 细菌 克隆 繁殖 步 又。 去 掉 了 细菌 繁殖 步 双 
极 大 地 提高 了 整个 测序 工作 的 速度 和 效率 ,同时 避免 了 由 于 细菌 繁殖 导致 的 序列 丢失 的 可 
能 性 。 未 端 配对 文库 制备 方法 的 建立 同样 对 复杂 基因 组 从 头 测序 .对 重复 片段 测序 以 及 对 
基因 组 结构 (复制 . 重 排 ) 展 开 系 统 研 究 三 种 能 力 。 这 种 末端 配对 文库 的 制备 方法 是 受到 了 
Bender 科 研 小 组 对 果 蝇 ( Drosophila ) 制备 跨 步 文库 方法 的 启发 而 发 展 得 来 的 。 
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WEA UNAL T OIO 


emPCR 被 454 测 序 仪 和 SOLiD 测 序 仪 等 采用 (图 6-3 )。 这 种 方法 是 将 制备 的 DNA 文 库 与 
水 油 包 被 的 直径 大 约 28 km 的 磁 珠 在 一 起 孵育 .退火 ,由 于 磁 珠 表面 含有 与 接头 互补 的 寡 聚 
核 昔 酸 序列 ,因此 ssDNA 会 特异 地 连接 到 磁 珠 上 。 同 时 孵育 体系 中 含有 PCR 反 应 试剂 ,因此 
可 以 保证 每 一 个 与 磁 珠 结合 的 小 片段 都 会 在 各 自 的 孵育 体系 内 独立 扩 增 , 扩 增 产物 仍 可 以 
结合 到 磁 珠 上 。 反 应 完成 后 ,破坏 铸 育 体系 并 富 集 带 有 DNA 的 磁 珠 。 经 过 扩 增 反应 ,每 一 个 
小 片段 都 将 被 扩 增 大 约 100 万 倍 , 从 而 达到 下 一 步 测序 反应 所 需 的 模板 量 。 

在 桥 式 PCR 反 应 中 (图 6-3), 正 向 引物 和 反 向 引物 都 被 通过 一 个 柔性 接头 (flexible 
linker ) 固定 在 固 相 载 体 ( solid substrate) 上 。 经 过 PCR 反 应 ,所 有 的 模板 扩 增 产物 就 都 被 固 
定 到 了 芯片 上 固定 的 位 置 。 值 得 注意 的 是 , Ilumina 测 序 仪 使 用 的 桥 式 PCR 与 传统 的 桥 式 
PCR 有 所 不 同 , 它 会 交替 使 用 Bst 聚 合 酶 进行 延伸 反应 以 及 使 用 甲 酰胺 ( formamide ) 进行 变性 
反应 。 这 样 ,经 过 桥 式 PCR 扩 增 之 后 ,也 会 在 固 相 载体 上 形成 一 个 个 的 模板 “克隆 "。 一 块 世 
片 的 8 条 独立 “ 泳 道 ”上 每 一 条 沪 道 都 可 以 容纳 数 百 万 的 模板 “克隆 ” ,这 样 一 次 就 可 以 同时 
对 8 个 不 同 的 文库 进行 测序 。 
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图 6-3 emPCR 和 bridgePCR 示 意图 


三 、 合 成 测序 法 》》 


摩尔 定律 不 仅 为 计算 机 CPU 的 迅猛 发 展 提供 了 源 动 力 ,也 给 测序 平台 提高 通 量 和 小 型 
化 带 来 了 希望 。 很 明显 ,常规 的 人 类 基因 测序 项 目 会 对 我 们 处 理 测序 技术 的 能 力 提出 更 高 
要 求 , 这 与 我 们 对 计算 机 处 理 能 力 的 要 求 是 一 样 的 。 不 过 ,只 有 将 计算 机 的 电子 管 换 成 晶体 
管 , 才 为 后 来 集成 电路 技术 的 发 展 提供 了 可 能 ,这 正 是 计算 机 产业 发 展 的 关键 所 在 。 而 希望 
对 传统 的 毛细 管 电泳 技术 进行 改良 ,提高 它 的 速度 和 处 理 规 模 , 正 如 只 用 电子 管 直接 制作 集 
成 电路 一 样 不 可 能 。 因 此 ,如 果 将 各 种 测序 技术 比 作 一 个 个 晶体 管 ,将 一 系列 测序 步骤 整合 
起 来 比 作 集 成 电路 ,那么 也 就 可 以 用 摩尔 定律 来 预测 DNA 测 序 技术 的 发 展 速度 了 。 

合成 测序 法 概念 虽然 在 提出 的 时 候 还 不 算 成 功 ,但 它 的 出 现 为 测序 仪 小 型 化 莫 定 了 
基础 。 基 于 合成 测序 法 出 现 了 两 种 策略 : 一 种 是 循环 可 切除 终止 测序 法 (cyclic reversible 
termination technology ), 即 依次 逐个 添加 奖 光 标记 的 碱 基 ,继而 检测 荧光 信号 ,切除 获 光 基 
团 ,如 此 往复 ; 另 一 种 策略 是 焦 磷 酸 测序 法 ( sequenced by detecting pyrophosphate release )。 
454 测 序 仪 采用 的 是 小 型 化 焦 磷 酸 测序 反应 ,测序 模板 准备 和 焦 磷酸 测序 反应 步骤 都 是 在 固 
态 芯片 上 完成 的 。 

实际 上 , 早 在 20 世 纪 90 年 代 中 期 , 焦 磷 酸 测序 技术 就 已 经 被 科研 界 用 来 进行 基因 分 型 
工作 了 ,但 那 时 的 焦 磷 酸 测序 技术 还 不 能 够 满足 标准 的 测序 实验 要 求 , 因 为 它 的 测序 长 度 太 
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短 , 因 此 只 能 用 于 旨 在 发 现 SNP 的 基因 分 型 研究 当中 。 那 时 焦 磷酸 测序 还 不 能 用 于 从 头 测 
序 工作 ,因为 从 头 测序 需要 对 每 一 个 尤其 是 第 一 个 碱 基 都 能 准确 地 区 分 清楚 ,而 焦 磅 酸 测序 
只 能 简单 地 对 已 知 位 点 的 碱 基 进 行 检测 ,而 且 从 头 测序 要 求 的 测序 长 度 也 是 焦 磷酸 测序 法 
无 法 达到 的 。 不 过 ,由 于 焦 磷酸 测序 的 原理 是 通过 检测 碱 基 挫 和 时 发 出 的 光 来 进行 测序 的 ， 
所 以 它 并 不 需要 类 似 于 电泳 之 类 的 物理 分 离 过 程 来 对 碱 基 进 行 区 分 。 这 也 就 是 说 焦 磷酸 测 
序 仪 可 以 "缩小 ( 减 沁 到 只 需要 检测 光线 就 够 了 ,而 不 需要 像 传统 的 测序 仪 还 需要 电泳 设备 ， 

而 这 正 是 限制 传统 电泳 仪 小 型 化 的 关键 所 在 。 发 光 检测 方法 还 能 够 进行 多 路 平行 操作 ,但 
是 直到 454 测 序 仪 出 现 之 前 ,还 没有 人 这 样 做 过 ,以 前 都 是 依次 进行 检测 的 。 和 晶体 管 早期 
的 遭遇 一 样 ( 当 时 人 们 也 怀疑 晶体 管 蔡 代 不 了 电子 管 ), 人 们 同时 对 高 密度 的 .用 于 并 行 焦 磷 
酸 测序 的 反应 也 充满 了 疑问 。 不 过 , 当 我 们 不 在 溶液 中 进行 测序 反应 ,而 是 将 测序 模板 、 所 
有 的 试剂 ( 酶 ) 都 固定 在 平板 上 制 成 芯片 之 后 ,就 获得 了 小 型 化 的 ,能 进行 多 路 并 行 处 理 的 测 
序 仪 ,这 就 与 晶体 管 被 小 型 化 并 整合 成 集成 电路 的 过 程 一 样 。 此 外 ,借助 微量 滴定 板 上 一 个 
个 的 小 孔 所 达到 的 将 不 同 测序 反应 进行 分 隔 这 一 目的 ,也 能 通过 在 单个 固 相 支持 物 上 进行 
严密 包 里 (隔离 ) 的 反应 来 实现 。 在 这 些 各 自 隔 绝 的 反应 体系 中 , 链 聚 合 反 应 速度 和 发 光速 
度 都 能 通过 对 反应 试剂 和 产物 弥散 状况 进行 严密 的 控制 来 进行 精密 的 调整 (图 6-4 )。 





图 6-4 BRM AR RE 


四 、 第 三 代 测 序 技术 >>. 


近期 出 现 的 Heliscope 单 分 子 测序 仪 、SMRT 技 术 和 Oxford Nanopore Technologies 公 司 正在 
研究 的 纳米 孔 单 分 子 技术 ,被 认为 是 第 三 代 测 序 技术 。 与 前 两 代 技 术 相 比 ,他 们 最 大 的 特点 
是 单 分 子 测 序 。 其 中 , Heliscope 技 术 和 SMRT 技 术 利 用 荧光 信号 进行 测序 ,而 纳米 孔 单 分 子 
测序 技术 利用 不 同 碱 基 产 生 的 电信 号 进行 测序 。 

Helicos 公 司 的 Heliscope 单 分 子 测序 仪 基于 边 合成 边 测序 的 思想 ,将 竺 测序 列 随机 打 断 
成 小 片段 并 在 3' 末 端 加 上 Poly( A ), 用 末端 转移 酶 在 接头 末端 加 上 Cy3 交 光标 记 。 用 小 片段 
HIDE E SEAR Poly( T ) 的 平板 杂交 。 然 后 ,加 入 DNA 聚 合 酶 和 Cy5 区 光标 记 的 dNTP 进 行 
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DNA 合 成 反应 ,每 一 轮 反 应 加 一 种 dNTP。 将 未 参与 合成 的 INTP 和 DNA 聚 合 酶 洗 脱 ,检测 
上 一 步 记 录 的 杂交 位 置 上 是 否 有 区 光 信 号 ,如 果 有 则 说 明 该 位 置 上 结合 了 所 加 入 的 这 种 
dNTP。 用 化 学 试剂 去 掉 荧 光标 记 , 以 便 进 行 下 一 轮 反 应 。 经 过 不 断 地 重复 合成 洗 脱 成 像 、 
泽 灭 过 程 完成 测序 。Heliscope 的 读 取 长 度 约 为 30~35 bp, 每 个 循环 的 数据 产 出 量 为 21~28 
Gb。 值 得 注意 的 是 ,在 测序 完成 前 ,各 小 片段 的 测序 进度 不 同 。 此 外 ,可 以 通过 二 次 测序 来 
提高 Heliscope 的 准确 度 , 即 在 第 一 次 测序 完成 后 ,通过 变性 和 洗 脱 移 除 3' 末 端 带 有 Poly( A ) 
的 模板 链 ,而 第 一 次 合成 的 链 由 于 5 末端 上 有 固定 在 平板 上 的 寡 聚 Poly(T ), 因而 不 会 被 洗 脱 
掉 。 第 二 次 测序 以 第 一 次 合成 的 链 为 模板 ,对 其 反 义 链 进行 测序 。 

Pacific Biosciences 公 司 的 SMRT 技 术 基 于 边 合成 边 测序 的 思想 (图 6-5 ), 以 SMRT 芯 片 为 
测序 载体 进行 测序 反应 。SMRT 芯 片 是 一 种 带 有 很 多 ZMW( zero-mode waveguides ) 孔 的 厚 
度 为 100 nm 的 金属 片 。 将 DNA 聚 合 酶 . 待 测序 列 和 不 同 荧光 标记 的 dNTP 放 入 ZMW 了 筷 的 底 
部 ,进行 合成 反应 。 与 其 他 技术 不 同 的 是 ,荧光 标记 的 位 置 是 磷酸 基 团 而 不 是 碱 基 。 当 一 
个 dNTP 被 添加 到 合成 链 上 的 同时 , 它 会 进入 ZMW 孔 的 荧光 信和 号 检测 区 并 在 激光 束 的 激发 
下 发 出 荧光 ,根据 荧光 的 种 类 就 可 以 判定 dNTP 的 种 类 。 此 外 由 于 dNTP 在 荧光 信和 号 检测 区 
停留 的 时 间 ( 上 毫秒 级 ) 与 它 进 入 和 离开 的 时 间 ( 微 秒 级 ) 相 比 会 很 长 ,所 以 信号 强度 会 很 大 。 
其 他 未 参与 合成 的 dNTP 由 于 没 进入 荧光 型 号 检测 区 而 不 会 发 出 荧光 。 在 下 一 个 dNTP 被 添 
加 到 合成 链 之 前 ,这 个 dNTP 的 磷酸 基 团 会 被 氟 聚 合 物 ( fluoropolymer ) 切割 并 释放 ,荧光 分 
子 离开 获 光 信号 检测 区 。SMRT 技 术 的 测序 速度 很 快 ,利用 这 种 技术 测序 速度 可 以 达到 每 
秒 10 个 dNTP。 
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Oxford Nanopore Technologies 公 司 正 在 研究 的 纳米 孔 单 分 子 技术 是 一 种 基于 电信 号 测 
序 的 技术 。 他 们 设计 了 一 种 以 a -溶血 素 为 材料 制作 的 纳米 孔 , 在 孔 内 共 价 结合 有 分 子 接 
头 环 糊 精 。 用 核酸 外 切 酶 切割 ssDNA 时 ,被 切 下 来 的 单个 碱 基 会 落 入 纳米 孔 , 并 和 纳米 孔 内 
的 环 糊 精 相 互 作用 ,短暂 地 影响 流 过 纳米 孔 的 电流 强度 ,这 种 电流 强度 的 变化 幅度 就 成 为 每 
种 碱 基 的 特征 。 碱 基 在 纳米 孔 内 的 平均 停留 时 间 是 毫秒 级 的 , 它 的 解 离 速率 常数 与 电压 有 
关 ,180 mV 的 电压 就 能 够 保证 在 电信 号 记录 后 将 碱 基 从 纳米 孔 中 清除 。 纳 米 孔 单 分 子 技术 
的 另 一 大 特点 是 能 够 直接 读 取 甲 基 化 的 胞 喀 啶 , 而 不 像 传统 方法 那样 必须 要 用 重 亚 硫 酸 盐 
( bisulfite ) 处 理 , 这 对 于 在 基因 组 水 平 研究 表 观 遗传 相关 现象 提供 了 巨大 的 帮助 。 纳 米 孔 单 
分 子 技术 的 准确 率 能 达到 99.8% ,而 且 一 旦 发 现 替换 错误 也 能 较 容易 地 更 改 , 因 为 4 种 碱 基 中 
的 2 种 与 另外 2 种 的 电信 和 号 差异 很 明显 ,因此 只 需 在 与 检测 到 的 信和 号 相符 的 2 种 碱 基 中 做 出 判 
断 , 就 可 修正 错误 。 另 外 由 于 每 次 只 测定 一 个 核 苷 酸 ,因此 该 方法 可 以 很 容易 地 解决 同 聚 物 
长 度 的 测量 问题 。 该 技术 尚 处 于 研发 阶段 ,目前 面临 的 两 大 问题 是 寻找 合适 的 外 切 酶 载体 
以 及 承载 纳米 孔 平台 的 材料 。 











第 三 节 
新 一 代 测 序数 据 存储 、 处 理 与 分 析 


Section3 Storage, Processing and Analysis of NGS Data 


过 去 ,研究 人 员 使 用 ABI 公 司 的 3730XL 毛 细 管 电泳 测序 仪 进行 基因 分 析 , 每 年 至 多 能 完 
成 六 千 万 碱 基 的 测序 量 。 随 着 测序 技术 日 新 月 异 的 发 展 ,这 种 情况 已 经 成 为 历史 。 在 2005 
年 开始 进行 新 一 代 测 序 技术 开发 时 , Roche 公 司 和 454 公 司 联合 开发 的 焦 磷 酸 测 序 仪 的 分 
析 速 度 就 已 经 达到 了 上 述 提 及 的 ABI 仪 器 速度 的 50 倍 之 上 。 也 就 是 从 那 时 起 , 因 基因 数据 
过 多 而 产生 的 问题 凸显 了 出 来 ,而且 这 个 问题 随 着 其 他 制造 商 开 发 出 更 多 更 快 的 测序 仪 而 
愈加 严重 。 举 个 例子 , ABI 的 新 一 代 测 序 平台 SOLiD 单 次 运行 , 便 可 以 分 析 6Gb 的 碱 基 序 列 ; 
而 Roche/454 测 序 仪 单 次 运行 可 以 将 上 述 结果 转换 成 12~15 个 千 兆 字 节 ( gigabytes ) 的 数据 
信息 ; Ilumina Genome Analyzer( GA II ) 测 序 系统 仅 在 两 小 时 运行 时 间 里 ,就 得 到 10 兆 字 节 
( terabytes ) 的 信息 。 尽 管 可 以 为 用 户 提 供 高 达 11.25TB 的 存储 量 ,但 对 于 多 数 实验 室 所 具有 
的 信息 管理 系统 来 说 ,规模 如 此 庞大 的 数据 信息 ,就 好 像 是 迎面 而 来 的 洪水 ,让 人 感到 难以 
控制 。 

海量 信息 所 带 来 的 一 个 问题 是 ,用 户 无 法 将 初始 图 像 数据 进行 分 类 存档 ,而 必须 利用 软 
件 对 数据 进行 读 取 , 然后 才能 对 数据 进行 保存 。 对 于 大 多 数 研究 人 员 来 说 , 像 这 样 在 每 次 实 
验 后 对 原始 数据 进行 处 理 的 方式 既 繁琐 又 不 经 济 。 

除数 据 处 理 问 题 之 外 ,研究 人 员 还 需要 拥有 一 个 足够 强大 的 计算 机 平台 ,以 便 将 来 自 多 
个 测序 技术 的 短小 基因 片段 进行 组 合 , 形 成 基因 组 外 显 子 。 目 前 问题 在 于 ,测序 仪 生产 商 仅 
仅 提 供用 于 某 些 特定 基因 信息 分 析 的 软件 ,如 划 标 重 测序 .基因 表达 分 析 .染色 质 免疫 沉淀 
反应 或 基因 组 从 头 测序 等 ,而 并 未 提供 任何 其 他 类 型 的 下 游 生物 学 信息 分 析 软 件 ,这 就 给 生 
物 信 息 学 提出 了 新 的 问题 


一 、 新 一 代 测 序数 据 格式 与 质量 编码 >> 


目前 ,序列 质量 评分 问题 是 受到 广泛 关注 的 一 个 问题 。 造 成 这 种 现象 的 原因 主要 是 因 
为 所 有 新 一 代 测 序 仪 的 测序 质量 都 不 高 ,而 且 不 同 的 序列 情况 都 有 各 自 的 误差 率 。 随 着 新 
一 代 测序 仪 产品 的 不 断 成 熟 ,在 临床 及 科研 工作 中 的 应 用 范围 越 来 越 广 ,它们 的 测序 质量 也 
就 变 得 重要 起 来 ,而 且 我 们 也 需要 对 各 个 测序 仪 的 测序 质量 有 一 个 清晰 的 、 可 靠 的 评价 标 
准 。 对 于 测序 仪 的 应 用 范围 进行 标准 化 的 质量 评价 也 是 有 好 处 的 。 比 如 评价 从 头 测序 的 质 
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量 评价 测序 结果 与 参考 序列 的 相似 度 .评价 测序 仪 发 现 突变 以 及 多 态 性 的 能 力 以 及 对 测序 
仪 在 进行 大 规模 测序 项 目 研 究 时 质量 的 可 靠 性 进行 评价 等 。 





二 、 新 一 代 测 序数 据 库 与 数据 格式 转化 》》 


目前 对 于 如 何 组 织 、 存 档 以 及 发 布 这 些 新 一 代 测 序 仪 产生 的 短片 段 序列 结果 正 处 于 热 
烈 的 讨论 之 中 ,人 们 希望 制定 一 个 类 似 蕊 片 实验 时 制定 的 MIAME ( minimum information about 
a microarray experiment ) 规则 。 这 些 早期 的 工作 经 验 在 如 何 处 理 包括 生物 学 注释 信息 ,临床 
原始 数据 .关键 实验 细节 (比如 样品 特征 、 样 品 处 理 方法 ) 在 内 的 元 数据 ,以 及 如 何 处 理 、 出 版 
发 行 这 些 数据 等 方面 给 了 我 们 良好 的 建议 。 如 何 对 这 些 新 一 代 测 序 仪 的 测序 结果 数据 进行 
公共 管理 也 是 一 个 需要 探讨 的 问题 。NCBI 最 近 专 门 为 短片 段 序列 建立 了 数据 库 Short Read 
Archive( SRA ), 并 同步 制定 数据 提交 格式 。SRA 数 据 库 不 仅 会 收集 包括 实验 注释 信息 .实验 
参数 等 信息 的 数据 ,而 且 还 会 被 整合 到 Entrez 查 询 系 统 当 中 。 目 前 的 工作 主要 包括 开发 线 上 
搜索 工具 数据 图 形 化 工具 。 


三 、 测 序 短片 段 在 参考 基因 组 中 的 定位 》》 


新 一 代 测 序 仪 可 以 用 极 快 的 速度 和 极其 低廉 的 价格 获得 大 量 的 序列 ,这 已 经 改变 了 
基因 组 学 的 面貌 。 它 们 可 用 于 对 RNA 进 行 测序 , 即 先 通 过 反 转 录 将 其 变 成 cDNA ,然后 再 对 
cDNA 进行 测序 ,这 样 就 能 发 现 一 些 未 知 的 基因 ,并 据 此 发 现 新 的 RNA 剪 切 方式 。 也 可 以 将 
测序 技术 应 用 于 ChlP, 弄 清楚 与 蛋白 质 共 沉 演 的 DNA 片 段 的 序列 。 这 种 方法 能 用 于 人 研究 转 
录 因 子 与 DNA 调 控 元 件 之 间 的 相互 作用 。 此 外 ,对 肿瘤 细胞 全 基因 组 测序 也 能 发 现 一 些 新 
的 致癌 突变 。 随 着 新 一 代 测 序 的 完成 ,人 们 获得 了 大 量 的 短片 段 序列 ,如 何 对 这 些 短片 段 作 
图 就 成 了 一 个 大 问题 , 即 被 称 为 “阅读 片段 作 图 (“read mapping”)” 的 问题 。 


@IL26_1184:6:1:881:704/1 
TTTATTTTGATGCACGCACGAGACGGTATCTAGACT 
+ 

D>>>>>>>>>><>>>>>>>>>>>>>>>>>>><<><> 
@IL26_1184:6:1:883:595/1 
TGGTGATTAGTCAAAGAGACCAAATCCCATATCCTC 
+ 


D>>>>>>>>>>>>><>>>>>>>>>>>>>>><>>>>< 


图 6-6 FASTQ 格 式 示例 


为 了 便于 测序 数据 的 发 布 和 共享 ,高 通 量 测序 数据 以 FASTQ 格式 来 记录 所 测 的 碱 基 读 
段 和 质量 分 数 ,如 图 6-6 所 示 , FASTQ 格 式 以 测序 读 段 为 单位 存储 ,每 条 读 段 占 4 行 ,第 一 行 
是 这 个 read 的 编号 ,第 二 行 是 read 的 具体 编码 ,第 三 行 是 一 个 标识 符 , 第 四 行 是 read 中 每 一 个 
碱 基 对 应 的 质量 读数 (这 是 由 于 每 个 碱 基 都 是 由 测序 仪 测 出 这 些 质 量度 数 是 由 ASCI 编 码 )。 
很 多 公司 开发 的 测序 仪 在 测序 时 产生 的 都 是 长 约 25~100bp 左 右 的 小 片段 序列 , 即 
“read”。 这 些小 片段 都 是 待 测 样品 大 片段 的 某 一 部 分 。 与 对 未 知 的 全 基因 组 进行 测序 , 即 与 
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将 所 有 小 片段 组 装 成 一 个 完整 基因 组 的 工作 相 比 ,大 们 现在 大 部 分 的 工作 实际 都 可 以 参照 
“参考 基因 组 ”进行 。 因 此 ,要 了 解 小 片段 “read” 的 作用 ,首先 要 知道 它们 在 参考 基因 组 中 
的 确切 位 置 ,而 对 这 些小 片段 进行 定位 的 过 程 就 称 作 “ 作 图 ”( mapping ), 或 “定位 ”( aligning ) 
到 参考 基因 组 中 。 在 作 图 中 ,有 一 个 问题 需要 注意 , 那 就 是 进行 定位 时 不 能 出 现 大 的 “间隙 ”。 
而 在 对 RNA 进 行 测序 时 ,因为 存在 内 含 子 的 缘故 ,这 一 点 就 显得 尤为 突出 。 因 此 ,对 RNA 进 
行 测序 时 就 允许 有 较 大 的 间隙 出 现 。 此 外 ,如 果 某 个 短小 片段 属于 参考 基因 组 里 的 一 个 重 
复元 件 ,那么 就 应 该 弄 清楚 它 来 自重 复元 件 中 的 哪 一 个 拷贝 。 但 这 是 不 太 可 能 实现 的 ,所 以 
分 析 程 序 一 般 都 只 能 给 出 该 短片 段 可 能 属于 参考 基因 组 中 哪 几 个 位 点 。 同 时 ,由 于 测序 错 
误 或 者 检测 样品 间 以 及 检测 样品 和 参考 基因 组 间 出 现 变异 等 情况 ,使 上 述 问 题 变 得 更 加 严 
重 。 同样 ,在 RNA 剪 切 体 作 图 中 也 存在 上 述 问 题 ,而 且 由 于 内 含 子 的 问题 使 得 情况 更 为 复杂 。 

当然 ,使 用 传统 的 BLAST 或 BLAT 软 件 分 析 ChIP-seq 或 RNA-seq 测 序 结果 ,可 能 会 花 上 几 
百 甚 至 几 千 个 小 时 ,现在 有 了 新 的 分 析 软 件 。 

众多 测序 仪 每 一 轮 测序 都 能 获得 百 万 计 的 短片 段 序列 ,不 过 要 对 一 个 基因 组 进行 完 
全 测序 则 需要 进行 好 几 轮 检测 ,这 也 就 意味 着 要 想 获 得 一 份 完整 的 全 基因 组 图 谱 必须 对 数 
百 万 甚至 是 数 十 亿 的 短小 片段 进行 作 图 .定位 和 拼接 。 比 如 ,最 近 做 出 的 癌症 基因 组 序列 
就 是 通过 132 轮 测序 ,对 80 亿 条 短小 片段 进行 作 图 后 得 到 的 结果 。 使 用 BLAST 或 BLAT 比 对 
法 ,借助 大 型 的 超级 计算 机 需要 几 天 就 能 获得 这 个 癌症 的 基因 组 序列 结果 ,但 这 并 非 人 人 
都 能 享有 有。 为 了 能 让 更 多 的 人 用 更 廉价 的 计算 机 也 能 进行 类 似 的 作 图 分 析 , 人们 开发 了 一 
套 新 的 比 对 定位 程序 ,使 用 这 种 新 程序 即使 在 普通 的 台式 机 上 也 能 对 数 亿 计 的 短小 片段 进 
行 作 图 分 析 。 测 序 仪器 生产 厂商 也 会 提供 一 些 专门 的 作 图 软件 ,例如 , Hlumina 公 司 开 发 的 
ELAND 程 序 等 。 研 究 人 员 也 开发 了 一 些 有 针对 性 的 第 三 方 软件 ,这 些 软 件 中 很 大 一 部 分 都 
是 开放 源 代 码 的 免费 程序 。 这 些 软件 主要 都 是 建立 在 这 样 一 种 算法 之 上 , 即 充分 利用 短小 
DNA 序 列 的 特点 来 作 图 ,而 不 需要 依靠 计算 机 强大 的 处 理 能 力 、 内 存 容量 等 条 件 。 








四 、 短 片段 作 图 软件 》》 


Maq 和 Bowtie 都 属于 短片 段 作 图 程序 (图 6-7 )。 它 们 使 用 的 是 一 种 称 作 “建立 索引 
( indexing ”的 策略 。 同 时 ,人 们 也 对 大 量 的 DNA 序 列 建立 了 一 份 索引 ,借助 这 份 索引 就 能 快 
速 地 找到 其 中 的 短 DNA 片 段 了 。Maq 软 件 是 基于 一 种 直接 的 但 是 很 有 效 的 策略 一 一 空位 种 
T Hr BORSE spaced seed indexing )。 它 将 一 个 短片 段 ( read ) 分 成 了 4 条 长 度 相等 的 更 短 的 
片段 一 一 种 子 片 段 ( seed )。 如 果 整 段 短小 片段 ( read ) 可 以 与 参考 基因 组 序列 完全 配对 , 那 
么 很 显然 所 有 的 种 子 片 段 ( seed ) 也 理 所 应 当地 应 该 与 参考 基因 组 序列 完全 配对 。 但 如 果 其 
中 有 一 处 错 配 ,例如 SNP, 那 么 肯定 有 一 条 种 子 片 段 无 法 与 参考 基因 组 序列 完全 匹配 。 以 此 
类 推 , 如 果 出 现 了 两 处 错 配 就 会 导致 一 条 或 两 条 种 子 片段 无 法 与 参考 基因 组 序列 完全 匹配 。 
因此 ,对 所 有 种 子 片段 两 两 组 合 后 的 片段 (共有 6 种 组 合 方式 ) 进行 比 对 ,就 有 可 能 找 出 该 短 
小 片段 在 基因 组 中 最 有 可 能 的 位 点 。Maq 软 件 采 用 的 这 种 “空位 种 子 片 段 索 引 法 ”( spaced 
seed indexing ) 作 图 时 的 效率 非常 高 。 

Bowtie 软 件 采 用 的 则 是 另 一 种 完全 不 同 的 策略 ,该 策略 借鉴 了 Burrows- Wheeler 转 换 
(Burrows-Wheeler transform ) 这 种 数据 压缩 算法 技术 ,将 完整 的 人 类 基因 组 序列 索引 压缩 
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b 
空位 种 子 片段 索引 法 转换 法 
参考 基因 组 = " 参考 基因 组 2. , 
(长 度 大 于 3GB ) 短 测序 片段 (长 度 大 于 3GB ) 短 测 序 片段 
BREA =e ACTCCCGTACTCTAAT 参考 基因 组 1 ACTCCCGTACTCTAAT 
参考 基因 组 2 二 = 一 = 参考 基因 组 2 ez 
参考 基因 组 3 mm 参考 基因 组 3 m— 
参考 基因 组 4 ———— 参考 基因 组 4 ——— 
构建 种 子 片段 连接 成 一 条 序列 


Burrows- Wheeler 
转换 并 构建 索引 | 











Bowtie 索引 1 

ACTCECGT ACTCTAAT Á 约 26B 大 小 ) s 2s) ACTCCCGTACTCTAAT 
1 : " T 
种 子 片段 U L3: J es i af SS ee ae 
waare HB = l 
两 两 组 合 edi B SE un 

的 六 种 组 j 
add 为 种 子 片 段 发 现 短片 段 ita É KV ACTCCCGTACTCTAAT 

| ene 确定 它 在 参考 前 二 
基因 组 中 的 位 置 居 > 


种 子 片段 索引 ( 数 +GB ) 


在 索引 中 寻找 每 一 对 
配对 的 种 子 序 列 


发 现 种 子 序列 ,确定 它 在 
参考 基因 组 中 的 位 置 


Zap » 的 位 置 , 确 


将 结果 对 应 到 基因 
组 当中 的 确切 位 置 
IEEE 


返回 软件 分 析 结 果 给 用 户 
图 6-7 两 种 短片 段 定位 方法 


到 不 到 2GB 大 小 (这 是 当前 主流 台式 机 其 至 是 笔记 本 电脑 都 能 达到 的 水 平 ), 而 空位 种 子 片 
段 索引 法 至 少 需 要 50GB。Bowtie 每 次 都 只 把 一 段 短片 段 序 列 中 的 一 个 碱 基 与 经 Burrows- 
Wheeler 转 换 压 缩 过 的 参考 基因 组 序列 进行 比 对 。 经 过 这 种 连续 的 比 对 ,最 终 也 能 找 出 这 段 
短片 段 在 参考 基因 组 中 的 定位 。 如 果 Bowtie 软 件 发 现 短片 段 中 的 某 个 碱 基 在 参考 基因 组 中 
没有 很 好 地 配对 ,那么 软件 就 会 退回 到 上 一 个 碱 基 重 新 进行 比 对 。 实 际 上 ,Burrows-Wheeler 
转换 使 得 Bowtie 软 件 通过 碱 基 和 逐个 比 对 ,直至 完成 全 长 短 序列 比 对 的 方法 解决 了 短 序列 作 图 
的 问题 。 从 本 质 上 来 说 , Bowtie 软 件 使 用 的 算法 要 比 Maq 采 用 的 复杂 得 多 ,但 Bowtie 软 件 却 比 
Maq 软 件 分 析 的 速度 快 30 倍 。 

Bowtie 软 件 和 Maq 软 件 的 默认 模式 中 至 多 都 只 会 允许 两 个 错 配 位 点 ,不 过 有 时 有 些 用 户 
需要 允许 更 多 的 错 配 位 点 存在 。 还 有 一 些 测序 项 目 ,例如 细菌 或 真菌 基因 组 测序 项 目 等 获 
得 的 片段 序列 与 目前 已 经 测 得 的 类 似 物 种 全 基因 组 序列 之 间 存 在 着 较 大 的 差异 。 再 加 之 随 
着 新 测序 仪 的 不 断 涌现 ,测序 结果 的 质量 也 在 不 断 提 高 ,但 这 些 测序 结果 却 极 易 受到 各 种 因 


第 六 章 ，” 新 一 代 测 序数 据 分 析 259 
CHAPTER 6 NEXT-GENERATION SEQUENCING DATAANALYSIS 


素 的 影响 ,例如 样品 文库 的 准备 测序 操作 步骤 、 甚 至 是 放置 测序 仪器 实验 室 的 温度 等 。 鉴 
于 此 , 面 对 上 述 这 些 新 出 现 的 “问题 ,人们 也 应 该 采取 相应 的 措施 ,调整 Maq 软 件 和 Bowtie 软 
件 的 各 种 参数 使 之 适应 这 些 新 情况 。 

Bowtie 软 件 包 中 包括 预 置 的 大 肠 埃 希 菌 基因 组 索引 和 部 分 大 肠 埃 希 菌 短片 段 序 列 。 要 
使 用 该 软件 分 析 数 据 只 需 输入 命令 就 会 生成 一 个 表格 式 的 报告 ,给 出 每 一 个 匹配 短 序列 的 
编号 .在 参考 基因 组 中 的 位 置 以 及 发 生 错 配 的 位 点 个 数 和 具体 位 置 。 

有 了 序列 定位 的 软件 , 接 下 来 就 可 以 了 解 这 些 短 片段 具体 在 参考 基因 组 中 的 什么 位 置 
了 ,同时 也 可 知道 SNP 都 位 于 基因 组 中 的 什么 地 方 。SAM 软 件 包 能 满足 这 些 要 求 。SAM 软 件 
包 ( http: //samtools.sourceforge.net ) 包括 一 体 化 的 碱 基调 用 和 浏览 器 ( base caller and viewer ), 
它 能 使 用 Maq 和 Bowtie 两 种 分 析 软 件 的 结果 。 





五 基因 表达 水 平 估计 >>. 


为 了 保持 对 不 同 基因 和 不 同 实 验 间 估 计 的 基因 表达 值 的 可 比 性 ,人 们 提出 了 RPM 和 
RPKM 的 概念 。RPM( reads per million reads ) 即 每 百 万 读 段 中 来 自 于 某 基因 的 读 段 数 ,考虑 
了 测序 深度 对 读 段 计数 的 影响 , RPKM( reads per kilo bases per million reads ) 是 每 百 万 读 段 
中 来 自 于 某 基因 每 千 碱 基 长 度 的 读 段 数 ,公式 表示 为 : 

基因 区 域 read 数 á 
T 基 交 长度 x 测序 深 度 “10 Eme 
另外 ,对 于 采用 末端 配对 测序 法 (paired-end sequencing ) 技术 获得 的 数据 , cufflinks 
软件 等 也 采取 了 其 他 标准 ,如 FPKM( fragments per kilobase of exon model per million mapped 


fragments )。 


六 .可 变 剪 切 作 图 软件 包 》》; 


要 将 RNA 的 反 转 录 片 段 cDNA 重 新 定位 到 基因 组 当中 需要 更 加 复杂 的 专业 化 算法 。 要 
将 不 同 外 显 子 经 过 剪 切 拼接 之 后 生成 的 RNA 短 片段 重新 定位 到 基因 组 中 和 将 一 个 外 显 子 生 
成 的 RNA 短 片段 重新 定位 到 基因 组 中 是 完全 不 一 样 的 。 

在 RNA 反 转录 产物 cDNA 的 定位 操作 中 用 到 的 诸如 ERANGE( http: //woldlab.caltech. 
edu/rnaseq ) 这 类 软件 包 都 会 用 到 已 知 基因 的 外 显 子 位 置 和 内 含 子 位 置信 息 作为 参考 。 这 
FÉ, ERANGE 软 件 包 就 能 “ 横 跨 ”多 个 外 显 子 构建 新 的 参考 序列 ,然后 再 调用 Maq 程 序 或 者 
Bowtie 程 序 将 剪 切 后 的 RNA 片 段 定位 到 参考 序列 中 了 。 因 为 这 种 方法 不 能 发 现 新 的 ( 人们 未 
知 的 ) 剪 切 模式 ,所 以 有 些 科研 人 员 就 使 用 了 一 种 “机 器 学 习 法 ”( machine learning method ) 
来 预测 新 的 剪 切 模式 。 该 方法 借助 现 有 的 参考 序列 注释 信息 在 统计 模型 ( statistical model ) 
上 进行 过 演练 。 与 此 相反 , TopHat 软 件 包 ( http: //tophat.cbcb.umd.edu ) 则 不 需要 借助 任何 注 
释 信 息 , 它 使 用 的 是 Bowtie 软 件 来 发 现 包含 有 短片 段 的 外 显 子 ,然后 再 将 余下 的 短片 段 定 位 
到 前 面 发 现 的 各 种 外 显 子 连接 体 当中 。 

Maq、Bowtie 以 及 其 他 几 种 短片 段 作 图 软件 都 可 以 处 理 长 度 超 过 100bp 的 测序 片段 结果 ， 
但 这 只 是 在 特定 的 情况 下 ,而 且 只 有 原本 就 是 针对 长 片段 设计 的 软件 ,例如 BLAT 才 能 更 好 
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地 处 理 这 类 测序 结果 。 男 外 ,如 果 测 序 的 样品 物种 序列 和 现 有 的 参考 序列 差异 很 大 , 那 该 如 
何 调整 作 图 软件 的 参数 呢 ? 软件 能 够 自动 调整 参数 吗 ? 这 样 做 出 来 的 图 质量 又 如 何 呢 ? 上 
述 这 些 问 题 的 解决 方案 都 依赖 于 采用 的 检测 方法 和 分 析 范 围 。 不 过 , 随 着 技术 的 进步 ,相信 
所 有 这 些 问 题 很 快 都 会 被 攻克 。 








SBPU TS 
DNA 和 RNA 测 序 


Section 4 DNA and RNA-Seq 


DNA-seq 在 疾病 中 已 经 得 到 了 广泛 的 应 用 , Shusuke Akamatsu 等 对 2557 个 前 列 腺 癌症 样 
本 和 3003 个 正常 样本 的 DNA-seq 结 果 进 行 关联 分 析 , 发 现 11q12、10q26 和 3p11.2 这 几 个 区 域 
和 前 列 腺 癌 易 感 有 显著 关联 。Chizu Tanikawa 等 在 日 本 人 和 群 中 发 现 了 两 个 和 十 二 指 肠 溃疡 易 
感 显著 关联 的 位 点 。Sun 等 人 使 用 RNA-seq 等 测序 方法 发 现在 前 列 腺 癌 组 织 中 发 现 可 能 导致 
癌症 融合 基因 。 新 一 代 测 序 技术 除了 在 疾病 中 的 常规 应 用 外 ,其 他 方面 的 使 用 前 景 也 很 好 。 


一 、DNA 重 测序 与 个 体 变 异 发 现 >> 


人 类 基因 组 上 广泛 存在 着 多 种 遗传 变异 形式 与 DNA 多 态 性 。 单 个 核 苷 酸 的 变异 早已 被 
熟知 ,其 中 那些 频率 大 于 1% 的 被 称 为 单 核 苷 酸 多 态 性 (SNP )。 国 际 人 类 基因 组 单 体型 图 计 
Xi] ( international HapMap project ) 已 经 在 人 类 群体 中 发 现 了 数 百 万 计 的 SNP。 尽 管 一 部 分 的 
SNP 被 发 现 与 人 类 疾病 相关 ,但 只 能 解释 疾病 遗传 因素 中 的 一 小 部 分 , 仍 有 较 多 的 未 知 遗 传 
因素 ( missing heritability ) 没有 被 揭示 。2008 年 初 启 动 的 “ 千 人 基因 组 ”计划 由 来 自 英 国 桑 
格 研究 所 ,美国 国立 人 类 基因 组 研究 所 ,中 国 深圳 华 大 基因 研究 院 等 多 家 机 构 共 同 完成 。 在 
这 一 计划 中 ,科学 家 们 对 全 球 各 地 至 少 1000 个 (目前 是 2000 个 人 左右 ) 人 类 个 体 的 基因 组 进 
行 测序 ,寻找 基因 与 人 类 疾病 间 的 秘密 关系 。 通 过 这 些 测序 也 将 生成 一 个 庞大 的 、 公 开 的 人 
类 基因 变异 目录 ,有 助 于 进行 分 析 以 及 个 体 化 医疗 。 千 人 基因 组 计划 完成 并 公布 了 首 项 研 
究 成 果 , 包 括 对 三 个 人 群 的 179 人 按 低 覆 盖 率 进行 全 基因 组 测序 ; 对 两 个 由 “母亲 -父亲 -和 孩 
子 ” 组 成 的 三 人 组 按 高 覆盖 率 进行 测序 ; 对 来 自 七 个 人 群 的 697 人 进行 以 外 显 子 为 目标 的 测 
序 。 这 项 研究 找 出 了 1000 多 万 个 大 大 小 小 的 基因 变种 ,其 中 约 800 万 个 都 是 以 前 所 未 知 的 。 
对 于 人 群 携带 率 在 1% 以 上 的 基因 变种 ,本 次 研究 的 覆盖 率 达 到 95% 以 上 。 这 一 成 果 在 医学 
等 领域 有 很 高 的 应 用 价值 ,比如 通过 参照 图 谱 , 可 以 方便 地 找 出 致 病 的 基因 变种 。 另 外 研究 
人 员 还 验证 了 在 大 型 基因 研究 中 综合 使 用 多 种 基因 测序 手段 的 可 行 性 。 由 于 基因 测序 成 
本 目前 仍 很 高 昂 ,如 果 能 在 “ 精 测 ”一 些 基 因 序 列 的 同时 ,对 另 一 些 基 因 序 列 只 需 “ 粗 测 ” 就 
能 保证 最 终结 果 的 准确 性 ,将 可 以 大 幅 降低 基因 测序 研究 的 成 本 。Science 相 关 文章 对 这 一 
方面 进行 了 介绍 ,文中 提 到 研究 人 员 开 发 出 了 几 种 分 析 和 计算 技术 克服 了 对 多 拷贝 基因 进 
行 研究 的 障碍 ,利用 这 一 新 方法 ,研究 人 员 对 1900 个 碱 基 对 长 的 DNA 片 段 拷 贝 数 进行 精确 佑 
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计 , 拷 贝 数 的 计数 范围 为 0~48 之 间 。 

除了 DNA 的 点 突变 ,基因 组 上 还 可 以 发 生 涉及 大 片段 DNA 序 列 的 变异 ,包括 亚 显 微 结 
构 ( sub-microscopic ) 的 微 重复 ( microduplication ) 和 微 缺失 ( microdeletion )。 此 类 基因 组 片 
段 的 拷贝 数 变异 ( copy number variation, CNV ) 和 SNP 类 似 , 除 了 一 部 分 会 致 病 以 外 ,也 可 以 
作为 一 种 遗传 多 态 性 存在 于 人 类 及 其 他 物种 的 基因 组 上 。 有 两 个 研究 小 组 借助 于 新 一 代 测 
序 技术 ,几乎 同时 发 现 了 人 类 基因 组 中 CNV 广 泛 分 布 ,不 仅 作为 一 种 遗传 多 态 性 在 人 类 基因 
组 中 广泛 分 布 ,而 且 可 以 导致 出 生 缺 陷 、 对 艾滋 病 病毒 的 易 感性 、 对 孤独 症 和 精神 分 裂 症 的 
易 感性 等 复杂 疾病 。 已 经 报道 的 基因 组 结构 变异 ( structural variation, SV ) 超过 66 000 个 ,其 
中 主要 是 CNV。- 借助 于 新 一 代 测序 技术 和 相应 的 实验 策略 ,如 paired-end mapping ( PEM ) 与 
基于 测序 深度 ( Read depth ) 检测 的 分 析 方 法 ,对 CNV 进 行 高 通 量 无 偏差 的 发 现 和 精确 定位 。 
人 类 基因 组 结构 变异 研究 组 ( human genome structural variation group ) 和 千 人 基因 组 计划 已 
经 获得 了 初步 数据 ,包括 1500 万 个 SNP,100 万 个 短 的 插入 或 缺失 以 及 2 万 个 CNV 的 位 点 ,其 
中 绝 大 部 分 都 是 新 的 发 现 。 





二 、 细 菌 基因 组 测序 与 致 病 性 位 点 发 现 >> 


一 个 合作 研究 项 目 采用 454 测 序 仪 对 4 株 结核 分 校 杆 菌 基 因 组 进行 测序 ,这 四 株 结 核 
分 枝 杆菌 分 别 是 一 株 对 R207910 具 有 耐 药 性 的 结核 分 校 杆菌 ( mycobacterium tuberculosis ) 
菌株 ,基因 组 大 小 约 4Mb; 两 株 对 R207910 具 有 了 耐 药 性 的 耻 垢 分 枝 杆 菌 ( mycobacterium 
smegmatis ), 基因 组 大 小 约 6Mb; 以 及 一 株 正 常 的 耻 垢 分 枝 杆 菌 ,基因 组 大 小 约 6Mb。 他 们 和 希 
望 能 发 现 结核 分 枝 杆菌 对 R207910 产 生 抗 药性 的 机 制 。 该 项 研究 在 只 有 一 位 实验 人 员 参 与 
实验 的 情况 下 ,包括 样品 制备 等 步 又 在 内 所 用 的 时 间 仅 需要 一 周 ,而 且 避 免 了 传统 测序 方法 
中 细菌 克隆 阶段 可 能 出 现 的 错误 ,获得 了 高 质量 的 测序 结果 ,发现 了 导致 结核 分 枝 杆菌 对 
R207910 产 生 抗 药性 的 两 个 点 突变 位 点 。 这 项 研究 成 果 让 我 们 在 最 近 的 40 年 内 第 一 次 找到 
了 特异 性 治疗 结核 病 的 药物 。 随 后 研究 人 员 开 展 了 一 系列 采用 新 一 代 测 序 仪 的 研究 项 目 ， 
对 高 致 病 性 细菌 空肠 弯曲 菌 ( campylobacter jejun ) 基因 组 的 从 头 测 序 项 目 、. 对 幽门 螺杆 菌 
( helicobacter pylori ) 在 慢性 胃炎 致 病 过 程 中 的 进化 研究 项 目 、 从 南极 海 冰 细菌 ( Antarctic sea 
ice bacterium ) 中 新 发 现 冰 结合 蛋白 (ice-binding protein ) 并 对 其 测序 的 研究 项 H ,以 及 在 引 
起 肺炎 、 脑 膜 炎 和 泌尿 道 感染 的 细菌 中 发 现 致 病因 素 的 研究 项 目 等 。 


三 \ 宏 基因 组 测序 与 感染 性 疾病 分 析 >> 


美国 在 2001 年 暴发 了 炭 痊 仙 怖 秦 击 危机 之 后 ,研究 人 员 开 始 针对 复杂 的 、 未 知 的 、 未 
人 工 培养 的 环境 微生物 基因 组 进行 测序 。 在 一 个 研究 项 目 中 ,有 三 名 患者 都 接受 了 同一 名 
澳大利亚 器 官 捐赠 者 的 器 官 ,之 后 均 因 不 明 原因 而 死亡 。 从 这 三 名 死者 身上 提取 了 非 人 类 
DNA 样 品 进行 测序 ,结果 获得 了 144 000 条 序列 。 分 析 后 发 现 ,这 些 序列 分 别 属于 一 种 沙 粒 
病毒 科 ( Arenaviridae ) 家 族 病毒 的 14 个 不 同 基因 。 随 后 进行 的 第 二 项 研究 在 对 健康 蜂 群 和 
患 病 蜂 群 进行 环境 基因 组 学 比较 研究 之 后 发 现 ,以 色 列 急性 麻痹 病毒 ( Israeli acute paralysis 
virus ) 是 导致 蜜蜂 蜂 群 崩 演 症 的 元 凶 。 这 些 研 究 都 突出 了 新 一 代 测 序 仪 的 一 个 特点 , 即 在 样 
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品 准备 前 不 需要 进行 克隆 或 预 扩 增 步骤 ,因此 非常 适用 于 对 未 知 的 未 能 人 工 培养 的 物种 进 
行 测序 。 这 些 特点 也 在 其 他 对 地 下 矿藏 .深海 .土壤 和 高 盐 等 环境 下 进行 的 环境 微生物 构成 
方面 的 研究 所 证 实 。 


四 、 古 生物 基因 组 和 进化 研究 >> 


要 用 传统 的 测序 方法 对 尼 安 德 特 人 的 基因 组 进行 测序 研究 非常 困难 ,因为 这 些 
古老 DNA 量 非常 少 , 而且 都 早已 裂解 成 了 片段 。 一 个 国际 性 的 研究 团队 对 尼 安 德 特 人 
(Neandertal ) 的 基因 组 序列 进行 了 测定 。 他 们 所 用 的 是 在 克罗地亚 的 一 个 洞穴 中 发 现 的 来 
自 3 个 尼 安 德 特 人 骨头 的 一 个 药片 大 小 的 骨粉 样品 。 他 们 将 这 些 尼 安 德 特 人 的 基因 组 与 来 
自 世 界 不 同 地 区 的 5 个 现代 人 的 基因 组 进行 了 比较 。 结 果 显 示 , 人 类 拥有 多 种 独特 的 基因 ，， 
其 中 包括 在 人 类 与 尼 安 德 特 人 从 一 个 共同 祖先 分 开 之 后 少数 在 我 们 的 人 类 种 系 中 快速 扩散 
的 基因 。 研 究 还 发 现在 人 类 中 经 常 发 生 但 在 尼 安 德 特 人 中 却 不 发 生 的 基因 序列 变异 的 基因 
组 区 域 。 他 们 找到 了 212 个 有 这 种 变异 的 区 域 。 在 其 中 20 个 区 域 中 ,有 着 最 强 的 正 向 选择 证 
据 的 是 3 个 基因 , 当 它 们 发 生 突 变 的 时 候 , 可 影响 思维 和 认 知 能 力 的 发 展 。 这 些 基因 被 认为 
与 Down 综 合 征 、 精 神 分 裂 症 和 自 闭 症 有 关 。 该 团队 的 带头 人 Piibo 说 : 获得 第 一 个 版 本 的 尼 
安 德 特 人 的 基因 组 测序 完成 了 人 们 的 一 个 长 期 以 来 的 梦想 。 我 们 第 一 次 能 够 发 现 将 我 们 与 
其 他 所 有 生物 区 别 开 来 的 基因 特征 ,其 中 包括 那些 在 进化 上 距离 我 们 最 近 的 亲族 。” 尼 安 德 
特 人 第 一 次 出 现 的 时 间 大 约 在 40 万 年 之 前 ,其 分 布 遍 及 欧洲 和 西亚 ,并 在 大 约 3 万 年 前 灭绝 。 
Piibo 带 领 的 另 一 项 研究 提出 了 对 尼 安 德 特 人 基因 组 的 选择 区 域 (特别 是 那些 来 自己 经 降解 
的 尼 安 德 特 人 遗 骨 ) 进行 测序 的 新 技术 。 他 们 应 用 一 种 “目标 序列 捕捉 ”的 方法 来 加 强 他 们 
对 来 自 西班牙 的 另外 一 个 尼 安 德 特 人 个 体 的 基因 组 中 的 数 个 片段 的 蛋白 编码 区 域 的 聚焦 。 
他 们 发 现 了 88 个 替代 氨基 酸 ,这 些 氨基酸 在 我 们 与 尼 安 德 特 人 分 开 之 后 已 经 成 为 固定 的 状 
态 。 尼 安 德 特 人 的 基因 组 片段 长 度 基 本 上 都 介 于 40~90bp 之 间 ,而 且 最 近 开 发 的 乳液 PCR 方 
法 也 能 够 对 微量 ( 单 分 子 ) 样 本 进行 很 好 的 扩 增 。 


五 .外 显 子 组 测序 >> 


外 显 子 组 是 指 全 部 外 显 子 区 域 的 集合 ,该 区 域 包含 合成 蛋白 质 所 需要 的 重要 信息 ,涵盖 
了 与 个 体 表 型 相关 的 大 部 分 功能 性 变异 。 外 显 子 组 序列 捕获 及 第 二 代 测 序 是 一 种 新 型 的 基 
因 组 分 析 技 术 。 与 全 基因 组 重 测序 相 比 ,外 显 子 组 测序 只 需 针 对 外 显 子 区 域 的 DNA 即 可 , 03 
盖 度 更 次、 数据 准 确 性 更 高 ,更 加 简便 经济 ,高 效 。 可 用 于 寻找 复杂 疾病 如 癌症 糖尿病. 肥 
胖 症 的 致 病 基因 和 易 感 基因 等 的 研究 。 目 前 许多 科学 家 都 利用 这 一 方法 找到 了 致 病 基 因 , 
比如 美国 国家 心肺 血液 研究 所 就 从 4 名 弗 里 曼 谢 尔 登 综合 征 患者 的 DNA 中 准确 找 出 了 致 病 
基因 变异 。 他 们 的 研究 表明 ,对 于 单个 基因 变异 引起 的 疾病 ,外 显 子 测序 同样 可 以 准确 找到 
致 病 基 因 ,与 全 基因 组 测序 无 异 。 研 究 人 员 认 为 ,外 显 子 测序 也 可 用 于 多 重 基因 变异 引起 的 
常见 疾病 ,如 糖尿 病 和 癌症 的 研究 中 ,来 揭示 该 种 疾病 的 致 病 基因 。 

来 自 华 盛 顿 大 学 医学 院 的 研究 人 员 利 用 外 显 子 组 测序 方法 ,找到 了 一 种 致命 性 眼睛 癌 
症 的 关键 基因 ,这 一 研究 成 果 可 能 作为 未 来 治疗 这 种 癌症 的 靶 标 ,并 且 用 于 其 他 具有 高 度 转 
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移 性 癌症 的 治疗 靶 标 。 和 葡萄 膜 恶 性 黑色 素 瘤 ( maligment melanoma of uvea ) 是 成 年 人 中 最 多 
见 的 一 种 恶性 眼 内 肿瘤 ,在 国外 其 发 病 率 占 眼 内 肿瘤 的 首位 ,在 国内 则 仅 次 于 视网膜 母 细胞 
Ji ,位 列 眼 内 肿瘤 的 第 二 位 。 此 瘤 的 恶性 程度 高 , 易 经 血 流 转移 ,在 成 年 人 中 又 是 比较 多 见 ， 
在 临床 工作 中 易 与 许多 眼底 疾病 相 混淆 。 由 于 这 种 癌症 转移 程度 很 高 ,因此 要 找到 关键 的 
基因 并 不 容易 ,之 前 的 研究 发 现 这 种 癌症 涉及 调节 和 蛋白 降解 的 特别 基因 的 缺陷 ,为 了 进一步 
分 析 和 葡萄 膜 恶 性 黑色 素 瘤 ,研究 人 员 采 用 了 外 显 子 组 测序 方法 ,结果 发 现在 研究 人 员 分 析 的 
31 个 肿瘤 样本 中 有 26 个 ( 占 84% ) 在 一 个 叫做 BAP1 的 基因 中 存在 着 失 活性 突变 。 研 究 结果 
发 现 , BAP1 信 和 号 转 导 通路 不 但 可 作为 葡萄 膜 黑 色素 瘤 的 一 种 治疗 目标 ,而 且 它 还 有 可 能 作 
为 其 他 具有 高 度 转移 性 的 癌症 的 治疗 目标 。 





六 、 非 编码 RNA 测 序 》》》 


454 测 序 仪 具有 不 需要 进行 传统 的 细菌 克隆 步 又, 而且 足 以 覆盖 只 有 21bp 长 的 miRNA 的 
测序 长 度 等 优势 。 其 最 早 参 与 进行 的 miRNA 研 究 是 对 拟 南 芥 ( arabidopsis thaliana ) miRNA 
开展 的 研究 。 随 后 马上 又 参与 了 另 一 项 研究 项 目 , 在 这 个 项 目 中 我 们 在 小 鼠 体 内 发 现 了 一 
种 新 型 的 小 RNA 一 一 piRNA。 这 些 研究 项 目 为 我 们 在 人 类 、 黑 猩猩 ,斑马 鱼 和 肿瘤 细胞 系 中 
开展 小 RNA 研 究 铺 平 了 道路 。454 测 序 仪 具有 的 这 种 对 小 RNA 进 行 研究 的 能 力 使 它 在 众多 
有 关 RNA 的 研究 领域 都 能 有 所 作为 ,例如 转录 体 研究 领域 、EST 研 究 领 域 研究 领域 和 基于 转 
录 体 的 SNP 研 究 领域 等 。 





七 、 核 糖 体 印记 与 深度 测序 技术 >>> 


将 核糖 体 图 谱 ( ribosome profiling ) 和 深度 测序 ( deep sequencing ) 相 结 合 ,研究 人 员 可 以 
从 基因 组 水 平 监测 蛋白 质 的 翻译 状况 。 深 度 测序 的 强大 功能 对 生物 学 研究 的 各 个 领域 都 
产生 了 极 大 的 影响 。 在 诸如 全 基因 组 测序 等 方面 ,新 技术 的 高 效 性 和 经 济 性 使 人 们 得 以 以 
一 种 以 前 无 法 想象 的 方式 进行 试验 研究 。 而 在 男 一 些 情况 下 ,例如 RNA 测 序 时 ,借助 深度 测 
序 可 以 进行 更 多 的 定量 分 析 , 获 得 更 大 的 动态 范围 。 在 男 一 些 研究 中 ,例如 最 近 由 美国 加 
州 大 学 ( University of California ) 的 Jonathan Weissman 小 组 发 表 的 有 关 翻 译 图 谱 ( translational 
profiling ) 的 研究 中 报道 的 那样 ,深度 测序 不 仅 是 一 个 有 效 的 定量 手段 ,同时 还 能 提供 很 多 有 
用 的 新 信息 。 

使 用 核酸 酶 消化 mRNA 时 ,在 翻译 过 程 中 发 挥 作用 的 核糖 体 结合 并 保护 了 大 约 30bp 的 
mRNA 片 段 。 这 些 被 保护 的 mRNA 片 段 构 建成 DNA 文 库 , 再 使 用 测序 仪 对 文库 中 所 有 的 片段 
进行 测序 ,最终 得 到 有 关 细 胞 中 蛋白质 翻 译 情 况 。 

这 种 方法 可 以 应 用 于 很 多 方面 。 首 先 , 它 能 广泛 地 用 于 蛋白 质 组 研究 当中 。 这 种 新 方 
法 用 于 研究 酵母 ,因为 酵母 比较 简单 ,同时 也 被 研究 得 比较 透彻 ,因此 相对 来 说 比较 容易 研 
究 。 但 是 从 理论 上 来 说 ,该 方法 是 可 以 应 用 到 其 他 任何 一 种 物种 中 的 。 另 外 ,将 该 技术 与 标 
记 有 抗原 表 位 的 核糖 体 ( epitope-tagged ribosomes ) 结合 使 用 ,还 有 可 能 用 于 研究 组 织 特异 性 
的 蛋白 质 翻译 ( tissue-specific translation )。 

其 次 ,在 检测 蛋白 质 表达 情况 时 ,使 用 核糖 体 图 谱 技术 相 比 检测 mRNA 丰 度 来 说 更 准 
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确 。 研 究 人 员 借 助 核 糖 体 图 谱 技术 为 胞 内 数 千 种 mRNA 构建 了 核糖 体 印记 密度 图 谱 , 并 通 
过 这 些 数据 获得 了 蛋白质 翻译 表达 速度 方面 的 数据 。 据 这 些 研 究 人 员 报 道 ,使 用 蛋白 质 翻 
译 表 达 速 度 方面 的 数据 来 判断 蛋白 质 丰 度 要 比 用 mRNA 丰 度 来 预测 准确 得 多 。 实 际 上 ,如 
果 对 结合 在 mRNA 链 5” 端 的 核糖 体 数目 进行 进一步 的 修正 ,就 能 更 准确 地 预测 出 蛋白 质 的 
丰 度 。 i 

核糖 体 图 谱 还 可 以 用 于 翻译 控制 ( translational control ) 分 析 。 核 糖 体 图 谱 技 术 具 有 很 
高 的 空间 准确 性 ( spatial precision ), 能 准确 地 反映 出 究竟 是 哪 一 个 阅读 框 被 翻译 了 。 因 此， 
可 以 使 用 该 技术 研究 程序 性 框 移 ( programmed frameshift ) 和 终止 密码 子 通 读 ( stop—codon 
readthrough ) 等 现象 。 








第 五 节 
研究 实例 : 基于 新 一 代 测 序 技术 的 癌症 组 学 
研究 


Section5 Case Studies: Canceromics Research basd on the Next 
Generation Sequencing Technology 






一 、 短 序列 数据 准备 》》 


短片 段 序列 数据 库 Short Read Archive( SRA ) 是 美国 国立 生物 技术 信息 中 心 网 站 中 的 一 
个 存储 新 一 代 测 序数 据 的 数据 库 , 它 提供 了 包括 实验 注释 信息 、 实 验 参数 等 信息 的 测序 数 
据 , 可 以 在 该 数据 库 中 检索 并 下 载 感 兴趣 的 数据 。 下面 分 6 个 步骤 对 下 载 数据 进行 实例 操作 。 

步骤 1 : 访问 NCBI SRA 数 据 库 http: //www.ncbi.nlm.nih.gov/sra( 图 6-8 ), 在 搜索 框 中 输入 
感 兴趣 的 查询 关键 词 ,例如 “lung cancer”。 


Using SRA Other Resources 





图 6-8 ”SRA 数据 库 网 站 首页 
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步骤 2 : KBE] "lung cancer” 得 到 78 个 查询 结果 (图 6-9 ), 页 面 右 上 方 提供 了 过 滤 查 询 
结果 的 条 件 ,包括 使 用 权限 数据 来 源 和 数据 类 型 。 此 处 按照 使 用 权限 ,有 两 套数 据 需要 申 
请 才能 获得 ,剩余 的 76 套 数据 可 以 免费 下 载 。 
















Results: 1to 20 of 78 Pagefi ots Next> Last» 


E GSM718714. Smoker with Lung Cancer (C_NUGEN) 
7. 1ILLUMINA (Illumina Genome Analyzer It) run: 27 8M spots, 1G bases, 710.6MB downloads 
Accession SRX060176 





source. metagenomic (0) 
source RNA (76) 
type: exome (0) 





[ul 1871 T 
2. ILLUMINA (Illumina Genome Analyzer ix) run: 26 9M spots, 970M bases. 674 SMB downloads 
Accession SRX050175 














GSM718710 Smoker with Lung Cancer (C Jlumina) 
3. 1 ILLUMINA (ilumina Genome Analyzer lix) run: 20.9M spots, 3 1G bases, 15GB downloads 
Accession SRX080172 


Related data < 
n 718709: Smoker m 
4. 1 ILLUMINA (mumina Genome Analyzer Ilx) run: 22.314 spots. 3.3G bases, 1.6GB downloads BioSample public access (21) 
CESEN? BioSample controlled access (2) 
I Complete Genomics whole genome sequencing for normal lung tissue BioSamgie all (23) 
5$ 71 COMPLETE_GENOMICS (Complete Genomics) runs: 3 1G spots. 220 1G bases, 159 1GB downloads BioProject public access (2) 
ee pote BioProject controlled access (1) 
r com f n n r lung tumor BioProiect all (3) 
6. 117 COMPLETE GENOMICS (Complete Genomics) runs: 4 2G spots, 296G bases. 220 1GB downloads dbGaP controlled access (7) 
Accession: SRXO17251 
dbGaP all (7) 






















MEEME RES 
图 6-9 SRA 数 据 库 查询 结果 


步骤 3 : 过 滤 条 件 选 择 “access: Public” 得 到 76 个 能 够 自由 下 载 的 数据 列表 (图 6-10 )。 
选择 第 一 套数 据 GSM718714 : Smoker with Lung Cancer ( C_NuGEN ), 并 查看 样本 信息 。 








"Limits dd 


ini iui a 





Display Settings: (v) Summary, 20 per page Sendio:(v) Filter your results: 
Results: 1 to 20 of 76 Page|? of 4 Next> Last>> ALTA) 
access: Controlled (2) 


MASAidi Smoker wih Lung anser (ND 


access: Public (76) — w 
1 ILLUMINA (Ilumina Genome Analyzer lix) run: 27.8M spots, 1G bases, 710.6MB downloads 
Accession: SRX050176 source: DNA (2) 
source: metagenomic (0) 
G 71 f witi N ce: RNA (7 
2. 11LLUMINA (lilumina Genome Analyzer lix) run: 26.9M spots. 970M bases, 674.5MB downloads 
Accession: SRX060175 type: exome (0) 
type: genome (2) 


M GSM718710 Smoker with Lung Cancer (C Illumina) 
Manage Filters 
3. 1 ILLUMINA (Illumina Genome Analyzer lix) run: 20.9M spots, 3.1G bases. 1.5GB downloads 
Accession. SRX050172 


Reiated data Ey 
[^ GSM718709. Smoker without Lung Cancer (NC lilumina) 
4. 


1 ILLUMINA (Ilumina Genome Analyzer itx) run: 22 3M spots, 3.3G bases, 16GB downloads : M si 
Accession: SRX060171 BioSample controlled access (2 
r BioSample all (23) 
Lung Cancer Sequencing Project 
5. 1ILLUMINA (Illumina HiSeq 2000) run: 46.4M spots. 9.4G bases. 6.1GB downloads BioProject public access (2) 


Accession: ERX040280 


BioProject controlled access (1) 
r BioProject all (3) 
6. ILLUMINA (illumina HiSeq 2000) run: 48.4M spots, 9.8G bases, 6.3GB downloads dbGaP controlled access (7) 


IA RRS UE 


图 6-10 SRA 数 据 库 查询 过 滤 结 果 
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步骤 4 : GSM718714 : Smoker with Lung Cancer ( C NuGEN ) 的 样本 信息 包含 关于 研究 
( Study ),FÉZ& ( Sample )、 实 验 ( Library ) 等 信息 的 描述 (图 6-11 )。 





Display Settings: (v) Full 
GSM718714 Smoker with Lung Cancer (C NiuGEN) 





Accession: SRX060176 
Experiment design: n/a 
Submission: SRA036189 by GEO 


Study summary: GSE29006 mRNA sq of Human Airway Epithekal Cels (SRP006676) + Suc» experiments (more ) Taxonomy 
Sample: source: Large airway epithelial cells (SRS 190964) (more 
Library: GSM718714. Smoker with Lung Cancer (C ! NuGEN) imore.) 


Platform: ilumina (more | 


Quaiity score: , 0x0.0E0 
Spot descriptor: 


attributes: 
GEO Accession. GSM718714 
Total: 1 run, 27 8M spots. 1G bases 











Related information 
BioSample | 
GEO DataSets wa 
PubMed H 


ie 
Recent activity s H 
luno ger | 
Q, iung cancer (78) 
mA | 
See more. 


li Download reads for this expenment in sra (710.6M) or sra-ita (710.6M) formats @ 


Li Run # of Spots # of Bases 
1 SRR192240 27.760.649 1G 





VM SU TIC m 





sos B EE [Es E a EGE 


图 6-11 SRA 数 据 库 样本 GSM718714 信 息 


步骤 5 : 点 击 “more... 


” 即 可 查看 更 详细 的 信息 (图 6-12 )。 其 中 Sample 的 详细 描述 包括 


实验 细胞 类 型 ,样本 性 别 ,吸烟 状态 等 信息 ; Library 的 详细 描述 包括 实验 平台 ,测序 类 型 , 测 


序 长 度 等 信息 。 


= x ita Long Conor EP au OR LASS is i 
Study summary: GSE29006: mRNA-seq of Human Airway Epithelial Cells (SRP006676) » Study * All expenments (I 


Attnbutes. 
GEO Accession. GSE29006 





8093. Web Link are 
Project Contnbutor Jennder, Beane 
Extemal ink- GEO Web Link 


Organism: Homo sapiens 
Attnbutes 
GEO Accession GSMT18714 
average age 647 
cell type large airway epithelial cells 
gender 2 Male, 1 Female 
lung cancer 3 Yes 
757 





Strategy RNA-Seq 
Source TRANSCRIPTOMIC 
Selection. cDNA 
Layout SINGLE 


single end reads) 
Platform: illumina (lass | 
instrument model Illumina Genome Analyzer lix 





















Project Contact Name = Avrum „Spira. Email = aspira@lung. bumc bu edu. Laboratory = Pulmonomics Lab. 








Center Project GSE29006. mRNA-seq of Human Airway Epithelial Celis 
Sample: source: Large airway epithelial cells (585190964) (less. ) 


Library: GSM718714 Smoker with Lung Cancer (C NuGEN) ies 


9 
Recent activity = 


Department = Pulmonary and Critical Care Medicine; institute = Boston University Medical Center, Address = 715 Tum OM Clear 
Albany Street, R304: City = Boston; Zip/Postal Code = 02118; Country = USA: Phone = 617-638-1860. Fax = 617-536- 


Q tung cancer (78) 






— 实验 性 质 、GEO 外 部 
链接 、 项 目 名 称 等 信息 





样本 年 龄 、 性 别 、 是 否 
患 病 、 吸 烟 状 态 等 信息 









实验 类 型 、 平 台 、 测 序 


Construction protocol. Standard lllumina mRNA-seq Protocol (Paired end 75 bp reads. fragments were 300bp. 2 50 bp 
adapter sequences, 2 75 bp reads. and a 50 bp msert {sd= 50bp) or prototype NuGEN Ovation RNA-seq protocol (36 bp 


=y 
E Eas REG A 


图 6-12 样本 GSM718714 部 分 详细 信息 
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l 2p RO : 点 击 “Study summary” 中 的 “Study” 可 以 链接 到 样本 GSM718714 所 在 实验 
SRP006676 的 完整 记录 (图 6-13 ), 右 上 方 提 供 该 实验 包含 全 部 样本 的 数据 下 载 链接 ,并 可 以 


选择 安装 Aspera plugin 软 件 来 加 快 下 载 速 度 , 右 下 方 提供 该 实验 包含 的 单个 样本 的 数据 下 载 
链接 。 








SRP006676 GSE29006: mRNA-seq of Human Airway Epithelial Cells 
Study Type: TI Analysis | 
Submission: SRA036189 by INDIVIDUAL on 2011-05-03 19:27:45 D reads for entire study as sra (10.0G) or s 
Abstract: na 0G) . | 


sake (10. 
Description: Summary: mRNA expression was profled QWhatis "wa" and raite" formate? 
( 


Show Entrez docsums for al experiments 












图 6-13 ”实验 SRP006676 的 完整 记录 
使 用 Aspera plugin 下 载 样本 单 末端 测序 样本 GSM718714 的 数据 SRR192340 ,为 了 后 面 


求 差异 表达 (图 6-14 ), 另 外 下 载 两 个 双 末端 测序 数据 ,一 个 是 健康 样本 GSM718707 的 数据 
SRR192333 ,一 个 肺癌 样本 GSM718710 的 数据 SRR192336。 





Fast Aspera Download On tp ken 
Tt tli dl Ll 


和 
el 







Yom we n E ax PY v nm TET. 

— COE Mene reme 1:5 191 
Name Tuas Content wi hori 1 Tr 
S606 NSM 1 BOK 

S824 nis 1 Er] 


Mete te Be ep est [og ee ace Liceo 
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图 6-14 使 用 Aspera plugin F RAE 
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二 、 短 序列 数据 格式 转换 >>> 


下 载 得 到 的 以 .sra 结 尾 的 文件 是 一 个 压缩 格式 的 文件 ,无 法 直接 阅读 ,使 用 前 需要 通过 
软件 将 其 转换 为 .fastq 等 格式 ,这 就 用 到 了 SRA Toolkit 中 的 fastaq-dump 命 令 。 进 行 短 序列 格 
式 转 换 主 要 分 为 以 下 四 步 。 

步骤 1 : 下 载 SRA Toolkit 软 件 。 访 问 NCBI SRA 数 据 库 网 站 首页 ,点 击 “SRA software" ,在 
打开 的 页 面 中 ,点 击 下 载 需要 的 版 本 (图 6-15 )。 此 处 选择 Linux 下 的 版 本 CentOS Linux 64 bit 


architecture; 


SRA Toolkit 
1. NCBI SRA Tookt iatest release (March 30 2012, version 2.1.10 release) compiled binaries and mds checksums: 


* ydb-view Windows Installer s a spreadsheet-tke browser for viewing SRA and vdd objects - Windows only 
2. Latest Source Code release: 
 NCBLSRA Software Development KE ~ March 30 2012, version 2.1.10 release 
3. Documentation: 





图 6-15 下 载 SRA Toolkit 
步骤 2 : 使 用 Xmanager 的 Xftp 将 下 载 的 sratoolkit.2.1.10-centos_linux64.tar.gz 上 传 到 服务 
器 (图 6-16 )。 


RAR 2012-3-30, 20:38 
27. 08MB WinZip 文件 2012-4-9, 7:24 


2.086B/2.00GB D: \SRA\SRXO0169 -> [ps2 lirh2011/ 210. 48. 85. 150 99»  135wys 00:27:00 ofi 
2.96NB/21.06NB D:\SRA\sratoolk -> fps? lirh2011/ 210.48 85.150 10% — 1.36 MB/s 000002 OF 
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步骤 3 : 将 sratoolkit.2.1 .10-centos_linux64.tar.gz 解 压缩 ,并 将 目录 sratoolkit.2.1.10-centos_ 
linux64/bin 添 加 到 linux 系 统 的 环境 变量 PATH 中 ,这 样 在 使 用 该 程序 的 时 候 就 不 用 输入 该 
程序 的 绝对 路 径 ( 在 文件 ~/.bash_profile 文 件 中 添加 export PATH= /sratoolkit.2.1.10-centos_ 
linux64/bin: $PATH ), 这 样 用 户 就 可 以 在 控制 台中 使 用 sratoolkit 的 各 项 工具 了 ,其 中 fastq- 
dump 命 令 可 以 进行 序列 转换 (图 6-17 )。 








[lirh2011@webserver book]$ tar -xzf sratoolkit.2 
[lirh2011@webserver bock]$ vi -/.bash profile 
[lirh20118webserver book]$ source -/.bash profile 
[lirh2011@webserver book]$ fastq-dump 











-1.10-centos_linux6é4.tar.gz 








Usage: - 
fastq-dump [options] [ -A ] accession» 
fastq-dump [options] «path [path...]> 










指定 要 转换 的 .sra 
文件 的 路 径 cig 


Use option --help for more information 





fastq-dump : 2.1.12 


图 6-17 安装 SRA Toolkit 
ik: 如 果 选 择 Windows 版 本 , 则 将 下 载 后 的 文件 解压 缩 , 将 sratoolkit.2.1.10-win32/bin 目 录 
添加 到 系统 的 环境 变量 PATH 中 (右键 桌面 的 我 的 电脑 -> 属性 -> 高 级 -> 环境 变量 -> 系统 变 
量 ->PATH-> 修 改 加 入 新 的 路 径 ), 然 后 点 击 开 始 菜单 ,运行 -=>cmd 就 可 以 Nindows 控 制 台中 执行 
fastq-dump 命 令 了 。 


步骤 4 : 使 用 fastq-dump 进 行文 件 格式 转换 。 对 于 单 末 端 测 序 的 数据 (如 SRR192340 ) 
可 直接 执行 fastqg-dump 命 令 , 输 出 结果 为 一 个 .fastq 文 件 ; 对 于 双 末 端 测序 数据 (如 
SRR192333 ), 执行 fastqg-dump 命 令 时 需要 添加 参数 --split-3 来 指定 输出 为 2 个 文件 
(图 6-18 )。 


[1irzh20118webserver book]$ cd /pub2/lirh2011/bock/data 
[lirh20118webserver data] fastq-dump --split-3 -A SRR192333 /pub2/lirh2011/b QE/ dara /393060169/5 SRR192333/SRR192333.sra 


Written 28216213 spots for /pub2/lirh2011/book/data/SRX060169/SRR192333/SRR192333.sra 

ritten 28216213 spots total 

[lirh20116webserver data]$ 

[iirh20118webserver data]$ fastq-dump -A SRR192340 /pub2/lirh2011/book/data/SRX060176/58RR192340/SRR192340.sra 


fritten 27780649 spots for /pub2/lirh2011/book/data/SRX060176/SRR192340/SRR192340.sra 
单 末端 测序 
SRR192333 1.fastq SRR192333 2.fastq SRR192340.fastq  SRX060169 SRX060176 


{lirh2011@webserver data]$ 

[lirh20118webserver data] less SRR192340.fastq 

@SRR192340.1 HWI-EAS266:3:1:0:629 length=36 转换 后 文件 列表 
CCIAGGGCCACAGACITGCAGGIGICIGAGCIGAGC E 


|FSRR192340.1 HWI-EAS266:3:1:0:629 lengthe36 
|ABB?ABBBBÉBAAAABAC?BBB»; @=RA?GABG;>@ 
@SRR192340.2 HWI-EAS266:3:1:0:488 lengthe36 
ICCTCCGACTITCGTICTIGATTAATGAAAACATICI 


5RR192340.2 HWI-EAS266:3:1:0:488 1 36 d a £ ps 
poonenoncsaueannae 7 | 每 4 行 表示 条 read — 
-EAS266:3:1:0: engthe — H " 
[CCGCACCCAAIIGGACCARICIATCACCCIATAGAA 281 ^ 34T 是 ID 和 长 度 信 息 
x =] 23:21:02:3800 li = p 
seach ae Peptic itor s 第 2 行 是 序列 ， 第 4 行 是 质量 数 
@SRR192340.4 HWI-EAS266:3:1:0:467 lengthe36 * 


IAGGTGIGAGGAGTTCAGTTAAATGITIGGGATITIT 
PORES SZ AD 4 HWI-EAS266:3:1:0:467 dn 
crcr. 





图 6-18 运行 fastq 一 dump 结 果 
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三 、 短 序列 在 参考 基因 组 上 定位 >>> 


以 下 分 六 个 步骤 将 转换 成 fastq 格 式 的 短 序列 文件 定位 到 参考 基因 组 上 。 

步骤 1 : 访问 bowtie 软 件 首页 http: //bowtie-bio.sourceforge.net/index.shtml( 图 6-19 ), 页 面 
右 侧 提供 软件 的 使 用 说 明 、 下 载 链接 .与 软件 相关 的 其 他 工具 的 链接 以 及 预先 构建 好 的 参考 
基因 组 。 















































bio. Sourceforge. net/index shial 


EP hdc 
Home 





> Bowtie 2 beta released - 10/16/2011 Naws archive 
Getting started 
+ Bowtie 2 2.0.0-beta2 is available now. Manual 
+ Differences between Bowtie 2 and Bowtie 1 include: ¥ocis that use Bowie 
For reads longer than about 50 bp Bowtie 2 is generaily faster, more sensitive, and uses less T EIS EE S 
than Bowtie 1. For rel 9.4 50 E OE TIENE 
memory atively short reads (e.g. less than 50 bp) Bowtie 1is sometimes |. | Sd 
faster and/or more sensitive. 
Please cite: Langmaad B, Trapnall C. Pop M, Salzberg 
> Bowtie 2 supports gapped alignment with affine gap penalties. Number of gaps and gap SL. Ultrafast and mamory-aificient slignmant ef short 


lengths are not restricted, except by way of the configurable scoring scheme. Bowtie 1 finds DNA sequences to the human genóme, Congas Bol 





just ungapped alignments. For release updates, subscribe te the mailing liat. 
* Bowtie 2 supports local alignment, which doesn't require reads to align end-to-end, Local 
à n EE 
alignments might be "trimmed" ("soft clipped") at one or both extremes in a way that Relátéd Tools" == "CREE i 


optimizes alignment score. Bowbe 2 also supports end-to-end alignment which, like Bowtie 1, 


Bowtie 2: Fast, accurate read alignment 
requires that the read align entirely. 


Crossbow: Genotyping, cloud computing 
» There is no upper limit on read length in Bowtie 2. Bowtie 1 has an upper limit of around 1000 
bo. Tophat: RNA-Seq splice junction mapper 


+ Bowtie 2 allows alignments to overlap ambiguous characters (e.g. 3s) in the reference. Bowtie — Cufflinks: Isoform assembly, quantitation 


1 does not. Myra: Cloud, differential gene expression 
« Bowtie 2 does away with Bowtie 1's notion of alignment “stratum”, and its distinction Other tools using Bowtie 

between “Mag-like” and "end-to-end" modes. In Bowtie 2 all alignments ie along a í - a 

continuous spectrum of alignment scores where the sconng scheme, similar to Needleman- Pedlinhu$ 0. 15 x 





Wunsch and Smith-Waterman. H. Sapiens, UCSC hg18 2.7 GB 

+ Bowtie 2's parred-end alignment is more flexible. E.g: for pairs that do not align in a paired 
fashion, Bowtie 2 attempts to find unpaired alignments for each mate. 

+ Bowtie 2 does not align colorspace reads. 


or: part 1 - 1.7 GB, part 2 - 1.0 GB 
colorspace: full, or part 2, part 2 





H. sapiens, UCSC hg19 2.7 GB 
» Fixed chicken index - 7/19/2011 or: part 1 -1.7 GB, part 2- 1.0 GB. 
» The pre-built chicken genome available from this website was missing chr25. chr25 random colorspace: full, or part 1, part 2 
was included, but chr25 was erroneously excluded. This is fixed as of today - the index files linked — 7H. sapiens, NCBI v36 2.7 GB 


to from the sidebar now contains all chicken chromosomes. oesipart 1-17 GB; part 2- 10G8 


pa eas a eye a ener 


到 
RM tse 77 Bac ee 


图 6-19 软件 bowtie 首 页 
点 击 Latest Release 中 的 Bowtie ,打开 下 载 页 面 (图 6-20 )。 


Find Open Source Software Si 
MÀ I 





Gene Expression Analysis 
Next Generation Sequencing Analysis Usernendly. Advanced, integrated 
pes ag 





Bowtie a den_tangmead, cirapnel, mcschatr 


Summary Fies Reviews Support Develop Tracker Mailing ists Forums Code 


Looking for the latest version? Download bowtie-0.127-sre.zip (7.7 MB) 


Home / Downe /0 427 A 








Open & Download Zip Files 
Hames Modified ® — Sie* Most Popular Compression Unlity for 
Windows. Official Site Download 
$ Parent foider amm Maza com 
Dowbe-0 12 7-macos-10.5:96, 642p 20109997  89u8 | pe 
bowite-D 12 7-macos-10.5-386 1p 2010-08-07  87u8 a 
Genomics Resources 
bowite-0:12 7-inux-i96. 64 ip 20100807 — 105MB Bin. Free Bioinformatics Tools Genomics News, 
Updates and Lectures 
ceo eta samy 
bowbe-0.12 7-386 2p 2010-09-07 104MB B. 
AG Cocos Dr 
bowbe-0 12 7-src ip 2010997 71MB Gm 
boWté-0.12 7-win22 tip 2010-09-07 126M8 n.. Nucleic Acids Cont 2012, 
Ali-inclusive Canbbean Location. World i 
Totais: 6 items 58.9 MB renowned speakers and chairs, 到 


图 6-20 ”下载 bowtie 的 安装 文件 
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步骤 2 : 安装 bowtie。 将 下 载 的 bowtie-#.*.*-linux-x86_64.zip 文 件 上 传 到 服务 ,使 用 unzip 
命令 将 文件 解压 缩 , 然 后 将 得 到 的 目录 bowtie-*#*.*.* 添 加 到 linux 系 统 的 环境 变量 PATH 中 (在 
文件 ~/.bash_profile 文 件 中 添加 export PATH= /bowtie—*.*.*; $PATH )。 

步骤 3 : 准备 参考 基因 组 。 在 bowtie 软 件 首 页 上 点 击 Pre-built indexes 中 的 H.sapiens， 
UCSC hg19 下 载 人 参考 基因 组 hg19( 人 参考 基因 组 hg19 共 2.7G ,建议 使 用 下 载 软件 下 载 ) (图 
6-21 )。 将 下 载 的 hg19.ebwt.zip 文 件 上 传 到 服务 器 ,使 用 unzip 将 其 加 压缩 。 




























E 2012-4-10, 0:53 

.2. ebw 341.10MB EBWT Xt 2012-4-10, 0:53 -rw 
加 hel9. 3. ebwt 3KB EBWT 文件 2012-4-10, 0:53 -ra 
(E) hg19. 4. ebwt 682. 20MB EBWT 文件 2012-4-10, 0:53 -rw 
(| hg19. rev. 1. ebwt 783.66MB EBYT 文件 2012-4-10, 0:54 -ra 
[E] hg19. rev. 2. ebwt 341.10MB EBWT 文件 2012-4-10, 0:54 rv 


图 6-21 人 类 hg19 参 考 基 因 组 


步骤 4 : 执行 bowtie 命 令 ,将 短 序列 Read 定 位 到 参考 基因 组 上 。 在 控制 台中 输入 bowtie 命 
令 , 可 以 得 到 各 项 参数 设置 方式 ,对 于 单 末端 测序 的 数据 SRR192340, 以 及 双 末 端 测序 数据 
SRR192333 执 行 命令 及 结果 如 下 (图 6-22 )。 


[lizh2011@webserver book]$ bowtie -t /pub2/lirh2011/book/my_indexes/hgl9 /pub2/lirh2011/book/data/SRR192340.fastq /pub2/lirh2011/book/data/ 


Time loading forward index: 00:00:01 T 

Time RM mirror index: ( 0 参考 基因 组 单 末端 测序 文件 输出 定位 文件 
Seeded quality full-index search: 00:45:46 

é reads processed: 27780649 

4 reads with at least one reported alignment: 23007280 (82.821) 

$ reads that failed to align: 4773369 (17.184) 


Reported 23007280 alignments to 1 output stream(s) FEL: = - 
tim searching: 245348 : 参考 基因 组 双 末 端 测序 fastq 文 件 1 
Overall time: 00:45:48 


[lirh20ll@webserver book]$ bowtie -t --chunkmbs 640 /pab2/lirh2011/book/my_indexes/hgl9 -1 /pub2/1ith2011/book/data/SRR192333_1.fastq -2 /pub 
2/lirh2011/book/data/SRR182333 2.fastq  /pub2/lirh2011/book/data/SRR192333.xap 


Time loading reference: { = 
Time loading forward index: 2 7 
Time loading mirror index: 0 1 双 末 端 测序 fastq 文 件 2 输出 定位 文件 = 
Seeded quality full-index search: 04:23:49 = 
$ reads processed: 28216213 
4 reads with at least one reported alignment: 14996877 (53.15%) 
$ reads that failed to align: 13219336 (46.85%) 

p red-end alignments to 1 output stream(s) 





图 6-22 短 序 列 Read 定 位 到 参考 基因 组 
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其 中 参数 -t 显 示 运 行 时 间 , bowtie 默 认 的 最 大 存储 空间 为 64MB ,使 用 参数 ----chunkmbs 
可 增 大 内 存 。 

从 运行 结果 可 以 看 出 短 序列 匹配 到 参考 基因 组 上 的 比率 分 别 为 82.82% 和 53.15%。 对 于 
匹配 率 较 低 的 情况 ,一 般 是 由 于 5” 和 3” 末端 测序 质量 不 高 导致 的 ,可 以 使 用 参数 -5 和 -3 去 
BRS? AZ? 末端 部 分 碱 基 。 

步骤 5 : 使 用 less SRR192340.map 浏 览 输出 定位 文件 的 内 容 ( 图 6-23 )。 








[lirh201i@webserver data]$ less SRR192340.map 
ISRR192340.1 HWI-EAS266:3:1:0:629 length=36 - 39032325 GCICAGCT! CTGIGGCCCTAGG 8»;05 
8?2AA7-6;»888?cABAAAABGBBBBA?BBA 0 13:CoT 
[SRR192340.2 HWI-EAS266:3:1:0:488 length=36 * 133012738 CCICCGACTTICGTICTIGATTAATGAAAACATICT BBCCC| 
|CBBCCCBCBBACCCBCBBBBCCBBCCCCBBC 
ISRR192340.3 HWI-EAS266:3:1:0:380 length=36 + 2257 CCGCACCCAATTGGACCAATCTATCACCCTATAGAA 
1368?><>ABG?7A>GABSBG=9A o 0:T>C,2:A>G 
[SRR192340.4 HWI-EAS266:3:1:0:467 length=36 一 2229 AAAAATCCCARACATTTAACTGAACTCCTCACACCT 
|CCCCCCCCCCCCCCCCCBCAC; ? o O:C>T,20:A>T 
ISRR192340.1 HWI-EAS266:3:1:0:629 length=36 = 39032325 
B83883A?B8A :OT 
[SRR192340.2 HWI-EAS266: 2488 length=36 + 133012738 CCICCGACTITCGTICTIGATTAATGAAAACATICT 
[SRR192340.1 HWI-EAS266:3:1:0:629 length=36 - 39032325 GCICAGCICAGACACCIGCAAGICTGTIGGCCCTAGG 
8?2AAÀ-0;»3BB?cABAAAABGBBBBA?BBA o 13:C»T 
[SRR192340.2 HWI-EAS266:3:1:0:488 "md * 133012738 
|CBBCCCSCBSBACCCBCBBBBC CCC33C 
ISRR192340.3 HWI-EAS266:3:1:0:380 danse * 
[B6B?»«»A88??A»0ABBBO-9A o 0:T>C,2:R>G 
SRR192340.4 HWI-EAS266:3:1:0:467 length=36 - 
|CCCCCCCCCCCCCCCCCBCAC; ? o 0:C»1,20:A»T 


图 6-23  bowtied tk . mapx HH A È 





文件 第 1 列 是 ID 和 长 度 信息 ,第 2 列表 示 匹 配 在 正 链 (+ ) 还 是 负 链 ( ) 上 ,第 3 列表 示 匹 
配 的 染色 体 ,第 4 列表 示 匹 配 的 起 始 位 置 ,第 5 列 是 Read 序 列 ,第 6 列 是 质量 数 ,第 7 列表 示 有 多 
少 条 序列 以 相同 的 错误 率 匹配 在 该 位 置 ,0 表示 这 条 Read 是 该 位 置 的 最 佳 匹 配 。 关 于 该 文件 
格式 的 详细 描述 请 参考 : http: //bowtie-bio.sourceforge.net/manual.shtml#default-bowtie-output。 

步骤 6 : bowtie 还 可 以 产生 SAM 格 式 的 输出 文件 (图 6-24 ), 适 用 于 其 他 支持 SAM 格 式 
文件 的 软件 进一步 分 析 。 对 于 单 末端 测序 数据 SRR192340 ,执行 命令 bowtie -t -S —-sam- 
nohead —sam-nosq hg19 SRR192340.fastq SRR192340.sam, 其 中 参数 -S/--sam 代表 以 sam 
格式 输出 定位 结果 ,在 后 面 加 入 --sam-nohead 来 去 掉 所 有 的 SAM 表 头 , --sam-nosq 来 去 掉 所 
有 @SQ 的 表 头 (例如 某 个 序列 比 对 到 了 参考 基因 组 的 许多 位 置 ) 

对 于 双 末 端 测序 数据 SRR192333, 执行 命令 bowtie -t -p 8 -I 200 -X 1000-S -—sam- 


[lirh2011i@webserver data2]$ head -400000 /pub2/lirn2011/book/data/SRR192333 1.fastq > /pub2/lirh2011/book/data2/SRR192333 1.f 
astq 

[lirh2011i€webserver data2]$ head -400000 /pub2/lirh2011/book/data/SRR192333 2.fastq > /pub2/1irh2011/book/data2/SRR192333 2.f 
astq 

[lirh2011Gwebserver data2]$ head -400000 /pub2/lirh2011/book/data/SRR192340.fastq > /pub2/lirh2011/book/data2/SRR192340.fastq 
[lirh20116webserver data2]$ bowtie -t -p 8 -I 200 -X 1000 -S --sam-nohead --sam-nosq --chunkmbs 640 /pub2/lirh20i1/book/my in 
dexes/ngi9 -1 /pub2/lirn2011/bock/data2/5RR192333 1.fastq -2 /pub2/lirh2011/book/data2/5RR192333 2.fastq /pub2/lirh2011/book/ 
|data2/5RR192333.sam 

Time loading reference: 00:00:25 

Time loading forward index: 00:00:06 

[Time loading mirror index: 00:00:16 

Seeded quality full-index search: 00:00:13 

# reads processed: 100000 

# reads with at least one reported alignment: 47707 (47.71%) 

$ reads that failed to align: 52293 (52.291) 


Reported 47707 paired-end alignments to 1 output scream(s) 
ime searching: 00:01:01 
Overall time: 00:01:01 


[lirh20i16webserver data2]$ bowtie -t -S --sam-nchead --sam-nosq /pub2/lirh2011/book/my indexes/hg19 /pub2/1irh2011/book/da 
|ta2/SRR192340.fastq /pub2/1lirh2011/book/data2/SRR192340.sam 
ime loading forward index: 00:00:02 

Time loading mirror index: 00:00:01 

Seeded quality full-index search: 00:00:10 

# reads processed: 100000 

# reads with at least one reported alignment: 82582 (82.58%) 
# reads that failed to align: 17418 (17.42%) 

Reported 82582 alignments to 1 output stream(s) 

Time searching: 00:00:14 

Overall time: 00:00:14 





图 6-24 bowtie 输 出 .sam 文 件 
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nohead ——sam-nosq hg19 -1 SRR192333_1.fastq -2 SRR192333 2.fastq SRR192333.sam, 其 中 
参数 -I 表示 paired end 所 测 两 序列 的 最 短 距离 ( 含 两 序列 长 度 ), 本 例 中 ， 双 侧 序列 都 为 75bp 3 
内 部 空缺 序列 为 50bp, 因 此 选 200 ; -X45 E paired end 所 测 两 序列 的 最 长 距离 ,考虑 到 可 变 前 
切 跨 越 外 显 子 , 本 例 中 我 们 选择 1000。 当 使 用 多 核 CPU 时 ,可 以 使 用 -p 参 数 指定 使 用 多 少 线 
程 计算 。 为 缩短 运行 时 间 ,我 们 只 选取 fastq 文 件 的 部 分 read 进 行 参考 基因 组 定位 。 

输出 的 sam 格 式 文件 如 下 (图 6-25 ): 


[lirh2011@Webserver data]$ less SRR192333.sam 
[SRR192333.1' HWUSI-EAS1671 0001:5:1:1022:10290 length=75 77 0 * * 0 0 NCCAC 
'CIACGATGCCATGGATGGGCAGATACAGGGCAGCGT! $PREEEEBERESEEE ES EEEEEEEEEEEE EE ER EE E EE EE E EE EE E 8 E] 
$353138555 E EE EEEESEEE E XM:i:0 
[SRR192333.1 HWUSI-EAS1671 0001:5:1:1022:10290 length=75 141 
"NNNNNAGGACINNNNNNNNNNGCTNNNNCNNGNNCCTCCT! 


o * * 0 0 NGCAG 
ICT. (TGACCGGCGTIGGGG IRE EEE EE E EE EEEEEE EE EE EEEEEEEE EE EE EE E EE E NN 
[BEERESESEEEESEEEEE EHE EEG XM:i:0 


0 * ¥ 0 0 NCAAG 
PEEPEEEEEEEEEEEEEEEEEEUELEEEEEEE EE ELE E EE E E E E E A EE 
BEEEHHEEEEHEHEH EHE GE 


XM:i:0 

SRR192333.2 HWUSI-EAS1671 0001:5:1:1022:15574 length=75 141 * 0 * * 0 0 NTGCT 
CANNNNIITIT! GCNNNNGNNGNNAGGCAGC HEPEBEEEE EE EESEEEE SES EEEEE EE EE EE EE EE EE E E E E ESSE 

[Bi5ESEEEEEEEEEEE E EE E E EG GF XM:i:0 
[5RR192333.3 HWUSI-EAS1671 0001:5:1:1022:17698 length=75 77 * 0 * w 0 0 NAAGG 
GGAGCCAAGGCACTICTGGGCAGCTICAT: 'GTICTIGGNNNAACNICCTGAG #+++++*))) :76: : AARARARAAAAAS TAAAAAATAAAAAAAAATSATA 

RASHESESSSES SELES XM:i:0 
Diese 3 HWUSI-EAS1671 0001:5:1:1022:17698 length=75 141 * 0 0 * * 0 o NAGGA| 
2 CAAGANNNNNNNNTNATGNNUNTNNCNNGAAGT GCCTTGGCTCCAGCCCTGTACCCCTTGAG PRBEEREEEEE EE E EEREEEEEERERE EE EE EE FEE E EE E E E E ETE 

HHHHTHEHEHHIHM XM:i:0 
ISRR192333.4 HWUSI-EAS1671 0001:5:1:1022:4778 pes gums 77 * 0 « * 0 0 NTTIGA| 
CE \CTTGGGNNNAGNNITAACTT #(( ('*+***AA666, *3, 3333, 37SS68AAAA65553-A5GAOASARE 

ASSASSESSSSESESESTETESES 


XM:i 
Hats 4 HWUSI-EAS1671-0001:5:1: De 4778 length=75 141 x 0 d * 0 NGGAC| 
m "ACNNNNGNNANNGT! 'GAGAGGTGGAGGCAGAGG $$$$53585 5 $E SEES E REB E EE EE EE EE SES EE EE EE EE SES EET E 4 1 4 


GIGNNNNNNNN! 
HII XM:1:0 





图 6-25 bowtie 输 出 .sam 文 件 的 内 容 


其 中 第 1 列 是 ID ,第 2 列 是 该 序列 满足 各 标签 代表 数字 的 和 ,具体 如 下 : 


这 个 比 对 是 一 个 E end 比 对 的 一 个 末端 


这 个 read 没 有 匹配 上 
[a — | read 是 一 个 pair 中 的 一 个 ,并 且 没 有 匹配 上 
6 | 匹配 到 负 链 上 了 


在 paired end 比 对 中 的 另 一 条 序列 匹配 到 参考 基因 组 的 负 链 上 
在 一 个 pairedread 第 一 个 (#1 ) 


在 一 个 bairedreadq 第 二 个 ( 殷 ) 


其 他 列 代表 含义 请 参考 


http: //bowtie—bio.sourceforge.net/manual.shtml#default—bowtie—output o 


























Qu. ku 5lE S5 XEDRUAB. Exe GERI RT SH MARA >> 


软件 TopHat 不 仅 能 够 将 短 序列 定位 到 参考 基因 组 ,还 能 够 识别 转录 本 序列 剪 切 、 插 入 和 
删除 等 信息 ,以 下 分 六 个 步骤 介绍 TopHat 软 件 的 安装 .应 用 以 及 结果 的 可 视 化 。 
步骤 1 : 访问 TopHat 软 件 网 站 http: /tophat.cbcb.umd.edu/index.html 图 6-26 ), 下 载 软件 。 
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support for this kind of reads. Bowtie: Ultratast short read alignment 


SOG EE hi aie Toa more 


图 6-26 软件 tophat 首 页 


步骤 2 : 安装 tophat。 将 下 载 的 tophat-2.0.0.Linux_x86_64.tar.gz 文 件 上 传 到 服务 器 ,使 用 
tar 命 令 将 文件 解压 缩 ,然后 将 得 到 的 目录 tophat-2.0.0.Linux_x86_64 添 加 到 linux 系 统 的 环境 
变量 PATH 中 (在 文件 ~/.bash_profile 文 件 中 添加 export PATH= / tophat-2.0.0.Linux_x86_64 : 
$PATH )。 


步骤 3 : 准备 参考 基因 组 ,参考 基因 组 注释 文件 测序 数据 fastq 格 式 文件 ,并 上 传 到 服务 
器 。 参 考 基 因 组 文件 可 以 从 cufflinks 网 站 下 载 http: //cufflinks.cbcb.umd.edu/igenomes.html; 为 
了 计算 某 个 基因 或 某 个 转录 本 等 所 映射 的 read 读 数 ,可 以 从 Ensembl 数 据 库 中 下 载 基 因 组 注 
释文 件 ftp: //ftp.ensembl.org/pub/release-66/gtf/homo_sapiens/Homo_sapiens.GRCh37.66.gtf.gz。 

步骤 4 : 执行 命令 定位 Read。 对 于 双 末 端 测序 数据 SRR192333 命 令 如 下 : tophat -p 
8 -r 50 -G Homo_sapiens.NCBI36.54.gtf -o SRR192333 hg19 SRR192333_1.fastq SRR192333 2. 
fastq, 其 中 , or 50 表 示 双 末端 序列 间距 50 个 碱 基 ; -G 参 数 指定 基因 组 注释 文件 (图 6-27 )。 


[lirh20li8webserver data2]$ tophat -p 8 -x 50 -G Homo ) sapiens.GRCh37.66.gtf -o SRR192333 /pub2/lirh2011/book/my indexes/hgi9 
[588192333 1.fastq SRR192333 2.fastq 


[Wed Apr 11 14:20:35 2012] Beginning TopHac run (vi.3.3) 


[Wed Apr 11 14:20:35 2012] Preparing output location SRR192333/ 
(Wed Apr 11 14:20:35 2012] Checking for Bowtie index files 
[Wed Apr 12 14:20:35 2012] Checking for reference FASTA file 

Warning: Could not find FASTA file /pub2/1irh2011/book/my indexes/hgi9.fa 
[Wed Apr 11 14:20:35 2012] Reconstituting reference FASTA file from Bowtie index 

cuting: /usr/local/bin/bowrie-inspect /pub2/11rh2011/book/my indexes/hg19 > SRR192333/cmp/hg19.fa 

[Wed Apr 11 14:23:49 2012] Checking for Bowtie 

Bowtie version: 0.12.7.0 
[Wed Apr 11 14:23:49 2012] Checking for Samrools 

Samtools Version: 0.1.12a 
(Wed Apr 11 14:23:49 2012) Generating SAM header for /pub2/lirh2011/bcok/my indexes/hgi9 
[Wed Apr 11 14:25:25 2012] Preparing reads 

format: fastq 

quality scale: — phred33 (default) 
[Wed Apr 11 14:25:25 2012] Reading known junctions from GIF file 

Left reads: min. length=75, count=99837 

Right reads: min. length=75, count=99625 
[Wed Apr 11 14:25:50 2012] Mapping left kept reads against hg19 with Bowtie 
[Wed Apr 11 14:26:01 2012) Processing bowtie hits 
[Wed Apr 11 14:27:54 2012] Mapping left kept reads segl against hgi9 with Bowtie (1/3) 
[Wed Apr 11 14:28:00 2012] Mapping left kept reads seg2 against hg19 with Bowtie (2/3) 
[Wed Apr 11 14:28:06 2012) Mapping left kept reads seg3 against hgi9 with Bowtie (3/3) 
[Wed Apr 11 14:28:12 2012] Mapping right kept reads against hgl8 with Bowtie 
[Wed Apr 11 14:28:23 2012] Processing bowtie hits - 
[Wed Apr 11 14:30:15 2012] Mapping right kept reads segl against hg19 with Bowtie (1/3) 
[Wed Apr 11 14:30:21 2012] Mapping right kept reads seg2 against hg19 with Bowtie (2/3) 
11 14:30:28 2012] Mapping right kept reads seg3 against hgl9 with Bowtie (3/3) 
11 14:30:34 2012] Searching for junctions Via segment mapping 


11 14:32:13 2012] Retrieving sequences for splices 
31 14:37:04 2012) Indexing splices 


2 

1 

11 14:37:05 2012] Mapping left kept reads segi against segment juncs with Bowtie (1/3) 

11 14:37:06 2012] Mapping left kepc reads seg2 against segment juncs with Bowtie (2/3) 

11 14:37:07 2012] Mapping left kept reads seg3 against segnent juncs with Bowtie (3/3) 

1 14:37:08 2012] Joining segment hits 

159 2012] Mapping right kept reads segl against segment juncs with Bowtie (1/3) 
Mapping right kept reads seg2 against segment junos with Bowtie (2/3) 

Mapping right kepr reads seg3 against segment juncs with Bowtie (3/3) 


i 
1i 
a 
1i 14: 
1i 14: Joining segment hits 





tttttttiiH 
和 





00:20:30 elap 


图 6-27 执行 tophat 定 位 短 序列 
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对 于 单 末端 测序 数据 SRR192340 命 令 如 下 : tophat -p 8 -G Homo. sapiens.GRCh37.66. 
gif —o hg19 SRR192340.fastq。 

步骤 5 : 查看 结果 。tophat 输 出 的 主要 结果 包括 reads 在 参考 基因 组 上 的 匹配 列表 
accepted_hits.bam, 8317] 方式 文件 junctions. bed ,插入 和 删除 信息 deletions. bed 和 insertions bed. 
其 中 , bed 文 件 可 以 通过 UCSC Genome Browser( http: //genome.ucsc.edu/ ) 可 视 化 。 

步骤 6 : 可 视 化 剪 切 方式 文件 junctions.bed。 有 关 bed 格 式 文 件 的 介绍 请 访问 UCSC。 进 
人 主页 http: //genome.ucsc.edu/ 后 ,点 击 Genome Browser 进 入 ， kun 下 拉 列 表 中 ,选择 
分 析 所 用 到 的 参考 基因 组 (图 6-28 ), 此 处 选择 hg19。 

点 击 add custom tracks 打 开 自 定义 轨道 管理 页 面 (图 6-29 )。 


| Human (Homo sapiens) Genome Browser Gateway 


The UCSC Graeme Browser was cated by the Gena Bion Or 
frware Copyng! ets of the University of Californas Als s reserved 
clade 


[Mammal B [Human — X[/Feb 2009 (GRCn37m919) Æ] Enc 319,039-321280 





Chick here to reset the browser user interface settings to their defaults. 


— HÀ ——— 


About the Haman Feb. 2009 (GRCh37/hg19) assembly (sequences) | 





The February 2009 human reference sequence (GRCh37) was produced by the Genome Reference Consortium. 
For more information about this assembly, see GRCh37 in the NCBI Assembly database 


Sample position queries 
A genome position can be specified by the accession number of a sequenced genomic clone, an mRNA or EST or 


STS marker, a chromosomal coordinate range, or keywords from the GenBank description of an mRNA. The 
following list shows examples of valid position queries for the human genome. See the User's Guide for more 
information 





Request: Genome Browser Response: 

chr? Displays all of chromosome 7 

chrUn_gi000212 Displays all of the unplaced contig 2000212 

20p13 Displays region for band p13 on chr 20 

chr3:1-1000000 Displays first million bases of chr 3, counting from p-arm telomere 

chr3:1000000~2000 — Displavs a region of chr3 that spans 2000 bases, starting with position 1000000 a 





[po CA RR CECECEOEOFOE T Bt" Fas Fa T 


图 6-28 UCSC%&4é Genome Browser i 


Home Genomes Genome Browser Biat T $ Gene Sorter PCR Session FAQ Heip 


clade [Mamma Æ] genome|Human Æ) assembly [Fen 2009 (GRCh37M919) E 


Display your own data as custom annotation tracks in the browser. Data must be formatted in BED, bigBed, bedGraph GFF, GTF, WIG, bigWig MAF, BAM, 
BED detail, Personal Genome SNP, VCF, or PSL formats. To configure the display, set track and browser line attributes as described in the User's Guide. URLs 
for data in the bigBed, big Wig, BAM and VCF formats must be embedded in a track line m the box below. Publicly available custom tracks are listed here 
Examples are here 


Paste URLs or data 





L.] 
Click here for an HTML document template that may be used for Genome Browser track descriptions. 


Loading Custom Tracks 
| An annotation data file in one of the supported custom track formats may be uploaded by any of the following methods: 


到 
dn ee 7 


图 6-29 UCSC? ate B eR Bi 
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点 击 浏览 选择 tophat 输 出 的 junctions.bed 文 件 , 按 submit 提 交 , 会 显示 在 轨道 管理 页 
(图 6-30 )。 

dd 点 击 go to genome browser 回 到 Cenome Browser 页 面 。 在 基因 组 图 的 上 方 出 现 TopHat 
junctions 的 图 示 , 页 面 下 方 自 定义 轨道 Custom Tracks 里 面 有 junctions 选 项 ,选择 full, Genes 
and Gene Prediction Tracks 里 面 的 Human ESTs, Spliced ESTs 都 选择 dense, 点击 右 侧 的 refresh 
(图 6-31 )。 











Home 





Genomes 






Session FAQ 















Name | Description Type Doc Ttems Pos 


User's Guide. 


* Name - a hyperlink to the update page where you can edit your track data. 

* Description - the value of the "description" attribute from the track line, if present. If no description is included in the input file, this field contains the track 
name. 

* Type - the track type, determined by the Browser based on the format of the data. 

* Doc - displays "Y" (Yes) if a description page has been uploaded for the track; otherwise the field is blank 

* Items - the number of data items in the custom track file. An item count is not displayed for tracks lacking individual items (e.g. wiggle format data). | 

* Pos - the default chromosomal position defined by the track file in either the browser line "position" attribute or the first data line. Clicking this link opens the | 
Genome Browser or Table Browser at the specified position (note: only the chromosome name is shown in this column). The Pos column remains blank if the 
track lacks individual items (e.g. wiggle format data) and the browser line "position" attribute hasn't been set. 


This section provides a brief description of the columns in custom track management table. For more details about managing custom tracks, see the Genome Browser | 
| 


图 6-30 轨道 管理 界面 


[e 544-250, 110 - WSC Genome, 


Genomes Biat Tables 








Stole Me wor ide Te eorin ims (GM 196) rene in +e 13 OF Semmes 
' 


Click on a feature for details. Click or drag in the base position track to zoom, 
in. Click side bars for track options. Drag side bars or labels up or down to 
reorder tracks. Drag tracks left or right to new position 


| sesion | asai | manapecusemtecn | vseh Hibs | conte | seme] ste | nen 
"Use drop-down controls below and press refresh to alter tracks displayed. 
Tracks with lots of items will automatically be displayed in more compact modes. 


Custom Tracks 





Mapping and aguencing Tracks 





图 6-31 TARAY 10 Zr AX fF junctions. bed 
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可 以 通过 上 方 的 工具 条 move, zoom in 以 及 zoom out 可 以 移动 ` 放 大 和 缩小 图 示 ,方便 浏 


览 。 例 如 ,点 击 两 次 页 面 上 方 右 侧 zoom out 10x 按 钮 ,使 基因 组 的 显示 范围 增 大 100 倍 ,如 下 
(图 6-32 )。 























图 6-32 增 大 可 视 化 范围 


页 面 显 示 了 20 号 染色 体 第 248 377 个 碱 基 到 第 267 276 个 碱 基 范 围 的 基因 组 图 。 其 中 包 
含 3 个 由 TopHat 软 件 估 计 出 的 前 切 方式 ,与 已 知 的 剪 切 方 式 相同 。 


五 ,数字 基因 表达 谱 提取 >>> 


软件 cufflinks 能 够 根据 tophat 软 件 得 到 的 短 序列 在 参考 基因 组 中 的 定位 信息 以 及 基因 在 
参考 基因 组 中 的 注释 文件 ,计算 出 基因 的 数字 表达 谱 , 同 时 还 能 计算 不 同样 本 间 基 因 OR 
本 等 的 差异 表达 ,识别 选择 性 前 切 等 。 以 下 分 七 个 步骤 介绍 cufflinks 的 下 载 \ 安 装 及 应 用 。 

步骤 1 : 访问 Cufflinks 软 件 网 站 http: //cufflinks.cbcb.umd.edu/ ,下载 软件 (图 6-33 )。 





Topktat and Cuffinis protocol published st Nature Protocols - 3712/2012 
complete bioinformatic protocol for analysis of RNA.Seq data using our tools has been published at 
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1.20 release - 11/22/2011 


s a number of bugs and includes some sgnficart accuracy and pertormancs 


图 6-33 Cufflinks £F T XX 
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步骤 2 : 安装 cufflinks。 将 下 载 的 cufflinks-1.3.0.Linux_x86_64.tar.gz 文 件 上 传 到 服务 器 ， 
使 用 tar 命 令 将 文件 解压 缩 , 然 后 将 得 到 的 目录 cufflinks-1.1.0.Linux_x86_64 添 加 到 linux 系 统 
的 环境 变量 PATH 中 (在 文件 ~/.bash_profile 文 件 中 添加 export PATH= / cufflinks—1.1.0.Linux_ 


x86_64 : $PATH )。 


步骤 3 : tophat 的 输出 结果 已 经 排 好 序 了 ,对 bowtie 输 出 的 SAM 文 件 需要 使 用 sort 命 令 根 


据 染 色 体 和 位 置 进 4 排序 (图 6-34 )。 


步骤 4 : 运行 cufflinks 程 序 ,提取 基因 数字 表达 谱 , 通 过 -o 参 数 指定 输出 
—o cufflinks result/SRR192333 SRR192333/accepted_hits.bam , 其 中 cufflinks_result/SRR192333 


是 指定 的 输出 目录 (图 6-35 )。 


{lirh20i1@webserver data2]$ sort -k 3,3 -k 4,4n SRRi92333.sam>SRR192333.sam.sorted 
{lirh2011@webserver data2]$ less SRR192333.sam.sorted 
[SRR192333.85821 99 chri 14580 255 75M = 14729 224 


2Z:0T74 NM:ií:l 


|[SRR192333.85821 147 chri 14729 255 75M = 14580 -224 CIGTGGCTGCTGCGGTGGC| 


/GGCAGAGGAGGGA: 
IGCGGGCAAAGGCTCCTCCGGGCCCCICACC $$26A75077 (2 (C>ABBBBA=8 @3BABBBD>>AB@@B 7A2B@BABBDCCCCCDCACACD@CACCCCCCCCCBCC 
22:75 NM:1:0 


SRR192333.97584 99 chri 461376 255 75M - 461507 206 


:2:17A57 NM:i:l 
SRR192333.97584 147 chri 461507 255 75M m. 461376 -206 


32:78 NM:i:0 
|SRR192333.17593 99 chri 564464 255 75M Le 564603 214 


12:75 NM:i:0 


图 6-34 排序 bowtie 输 出 的 sam 文 件 


H3. cufflinks 


CGCIGGITCCGICACCCCCICCCAAGGAAGIAGGICIGAGCAGCT 


[TGTCCIGGCIGIGICCATGICAGAGCAACG CCCCCCCCCCCCCCCCCCBBBBBBCCCCCCBCCCACCCCCCCCCCCADCCCCBBCC?8?8CBCBBDDD : BABGBB XA:i:1 MD 


TGGAGTCTGACAC 
XA:i:0 MD 


CCGTGCITITCCCAAAGGITGTICTGGGGACCTCAGTAAGTAAAGG 


IGGAGAAGTGIGGGTGTTGGGGAAAGGGGAA CCCCCCCCCCCCCCCCCCDCCCCCCCCCCCDCCCCDCCCBCDDCCCDBCBGCBCDCAAACBABBBDAA?DBBB?? XA:i:i MD 


TITGGTCAGCGTICACTGAATACACATTITACATGIGATGGAGGT 


AGAGGCAGGGATGTAGCITITITATCTTTG BDBDDBDBCDBCBCBBCCCCC»CDCCCCCCDCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCBBBCCCCCCCCCCC XA:i1:0 MD 


GGGAGTCCGAACTAGICTCAGGCTTCAACATCGAATACGCCGCAG 


IGCCCCTTCGCCCTATTCITCATAGCCGAAT CCCCCCCCCCCCCDCCCCCCCACCCCCCCCCCCAACCCBCCBCCDACCCCEBCBBCB=>>G@B=BCB>>8CCB?. ? XA:i:0 MD 





{lirn201i@webserver data2]$ cufflinks -o cufflinks result/SRR192333 SRR192333/accepted_hits.bam 
cufflinks: /usr/lib64/libz.so.1: no version information available (required by cufflinks) 


[15:48:05] Inspecting reads and determining fragment length distribution. 

» Processed 38711 loci. oec x ) 100€ 
» Map Properties: 

> Total Map Mass: 87413.95 

> Read Type: 72bp paired-end 

> Fragment Length Distribution: Gaussian (default) 

> Estimated Mean: 208.93 

> Estimated Std Dev: 70.97 

[15:48:21] Assembling transcripts and estimating abundances. 

> Processed 38711 loci. 


图 6-35 运行 cufflinks 提 取 基 因 表 达 谱 


步骤 5 : cufflinks 输 出 3 个 文件 ,提供 了 不 同 水 平 的 表达 transcripts.gtf( 图 6-36 ), isoforms. 
fpkm_tracking 和 genes.fpkm_tracking( 图 6-37、 图 6-38 )。 其 中 transcripts.gtf 记 录 的 是 cufflinks 
装配 的 异 构 体 , genes.fpkm_tracking 和 isoforms.fpkm_tracking 分 别 记录 了 以 基因 为 单位 和 以 转 
录 本 为 单位 的 数字 基因 表达 值 FPKM。 文 件 内 容 的 详细 说 明 请 参考 http: //cufflinks.cbeb.umd: 


edu/manual.html#cufflinks_output. 


(lirh2011Qwebserver SRR192333]$ less transcripts.gtf 

chri Cufflinks transcript 568468 568845 1000 
72042"; frac "1.000000"; conf lo "1231.728345"; conf hi "1376. 169270"; cov "16.422596"; 
chri Cufflinks exon 568468 568845 1000 . 
303.9488072042"; frac "1.000000"; conf lo "1231.728345"; conf ! at "1376.169270"; cov "16.422596"; 
chri Cufflinks transcript 1717098 1718264 1000 . 

207871"; frac "1.000000"; conf lo "112.393997"; conf hi "158.988644"; cov "1.710766"; 

chri Cufflinks exon 1717098 1718264 1000 ` gene id "CUFF.295"; transcript_id "CUFF.295.1"; 
"135. rc e frac "1.000000"; conf lo "112.393997"; conf ! hi 7158.988644"; cov "1.710766"; 


chrl Cufflink: transcript 8022872 8045216 1000 + gene id "CUFF.587"; transcript_id "CUFT.587.1"; 


282041"; frac “1, 000000"; conf lo "170.743258"; conf hi "227.163599"; cov "2.608696"; 
chri Cufflinks exon 28022872 8022935 1000 + gene id "CUFF.527"; transcript_id "CUFF.587.1"; 
j"198.9534282041"; frac "1.000000"; conf lo "170.743258"; conf ! hi "227.163599"; cov "2.608696"; 

exon 8025384 8025485 1000 * gene id "CUFT.587"; transcript_id "CUFF.587.1"; 
; frac "1.000000"; conf 1o "170.743258"; conf M "227.163599"; cov "2.608696"; 


exon 8029405 $029464 1000 id "CUFF.587"; transcript id "CUFT.527.1"; 


gene ; 
7198.9534282041"; frac "1.000000"; conf lo *170.743258"; oe ni "221.163599"; cov "2.608696"; 


chri Cufflinks exon 8030954 8031023 1000 gene id Co: $87"; vranscript id "CUFF. 587.1"; 


7198.9534282041"; frac "1.000000"; conf lo “170.7432587: e hi "227. 1635997; cov "2.608696"; 


chri Cufflinks exon 037712 8037792 1000 gene_id po $87"; transcript id "CUFF.587.1"; 
7198.9534282041"; frac "1.000000"; conf lo "170.743258"; conf ] hi "227.163599"; cov "2.608696"; 
chri Cufflinks exon 8044954 8045216 1000 gene id | "CUPT. 587"; transcript íd "CUPF.587.1"; 
"198.9534282041"; frac "1.000000"; conf lo "170.7432587; conf ! hi "227.163599"; cov "2.608696"; 





图 6-36  cufflinks#7 3: #9 transcripts. gtf 


gene id "CUFF.47"; vranscript id "CUFF.47.1"; exon number un 


exon number "1"; 


exon number "i"; 
exon number "2"; 
exon number "3"; 
exon number "4"; 
exon number "5"; 


exon number "6"; 





gene id "CUFF.47"; transcript_id "CUFF.47.1"; FPEM 2908: 94880 
FPKM "1 


gene id "CUFF.295"; transcript_id "CUFF.295.1"; FPKM "135.6913 


FPKM 


FPKM "198.9534 


FPEM 


FPEM 
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‘chr left right FPM FI frac  FPKM conf lo FPEM conf hi 


568467 568945 1303.95 1 1231.73 1376.17 16.4226 378 307 

1717097 1718264 135.691 1 112.394 158.989 1.71077 1167 1096 

8022871 8045216 195.953 1 170.743 227.164 2.6087 646 575 

9789110 9790022 190.437 1 162.837 218.037 2.40785 912 841 

20520705 20521599 139.001 1 115.422 162.581 1.64034 894 

22418532 22419430 179.828 1 153.008 206.648 2.26723 898 

24019108 24022902 1333.48 1 1260.44 1406.51 15.8266 560 

26801673 26802409 143.112 1 119.186 167.038 1.80948 736 

32508152 32509440 112.8 91.5587 134.042 1.47905 1282 
33238489 33239830 180.155 153.31 206.999 2.18504 1341 
36552558 36553834 . 160.149 214.927 2.23547 681 

38023237 38030745 . 175.133 232.219 2.15704 745 

43391912 43392783 . 119.081 166.914 1.6875 871 

44058162 44089220 . 158.212 212.684 2.05167 1058 
45241715 45243800 . 510.174 604.611 6.61253 502 

45976761 45977085 . 496.013 589.188 6.64032 324 

45980564 45987546 . 762.219 876.724 9.75008 420 

46085719 46087106 . 230.293 295.127 3.2881 1029 
46646211 46651628 H 1616.91 1781.81 20.5394 1276 
47264746 47279685 . 292.563 365.097 3.85779 732 

47219896 47284135 . 331.043 407.931 4.09297 814 

47284301 47285010 430.338 1 388.849 471.827 5.13883 709 


S8RRRRERRRRSRRSSRRRER 





图 6-37  isoforms.fpkm tracking x # È 


gene id bundle id chr left right FPKM FPEM conf 1o FPKM conf hi status 

.4? 38735 chri 568467 568845 1303.95 1231.73 1376.17 OK 

.295 38845 chri 1717097 1718264 135.691 112.394 158.989 OK 

.587 38970 chri 8022871 8045216 198.953 170.743 227.164 OK 

.649 38999 chri 9789110 9790022 190.437 162.837 218.037 OK 

.1297 39272 chri 20520705 20521599 139.001 115.422 162.581 
+1449 39335 chri 22418532 22419430 179.828 153.008 206.648 
+1517 39364 chri 24019108 24022902 1333.48 1260.44 1406.51 
1775 39471 chri 26801673 26802409 143.112 119.186 167.038 
+2122 39620 chri 32508152 32509440 112.8 91.5587 134.042 
+2203 39658 chri 33238489 33239830 180.155 153.31 206.999 
+2397 39742 cnri 36552558 36553834 187.538 160.149 214.927 
.2493 39781 chri 38023237 38030745 203.676 175.133 232.219 
+2775 39904 chri 43391912 43392783 142.998 119.081 166.914 
+2877 39942 chri 44088162 44089220 185.448 158.212 212.684 
+2967 39979 chri 45241715 45243800 557.393 510.174 604.611 
3015 39998 chri 45976761 45977085 $42. 496.013 589.188 
+3019 39998 chri 45980564 45987546 819. 762.219 876.724 
+3037 40004 chri 46085719 46087106 262.71 230.293 295.127 
+3093 40029 chri 46646211 46651628 1699.36 1616.91 1781.81 
+3155 40056 chri 47264746 47279685 328.83 292.563 365.097 





图 6-38  genes.fpkm, tracking x # Pj & 


步骤 6 : 重复 步骤 1 到 4, 处 理 测序 数据 SRR192336。 
步骤 7 : 简单 的 差异 基因 筛选 。 使 用 cufflinks 软 件 的 cuffdiff 命 令 能 够 计算 差异 表达 的 
基因 \ 转 录 本 、 选 择 性 剪 切 、 启 动 子 ,以 健康 样本 GSM718707 的 数据 3RR192333, 与 肺癌 样本 
CSM718710 的 数据 SRR192336 为 例 , 基于 tophat 得 到 的 结果 ,运行 cuffdiff 命 令 cuffdiff Homo_ 
sapiens. GRCh37.66.gtf SRR192333/accepted hits.bam SRR192336/accepted_hits.bam 运 行 结 果 分 
为 四 种 类 型 : 四 个 水 平 的 表达 数据 ,转录 本 表达 isoforms.fpkm_tracking 基因 表达 genes.fpkm_ 
tracking 、 编 码 序列 表达 cds.fpkm_tracking 以 及 初级 转录 本 表达 tss_groups.fpkm_tracking; 对 应 
四 个 水 平 的 差异 表达 检验 数据 isoforms_exp.diff、 genes_exp.diff 、cds_exp.diff 以 及 tss_groups_ 
exp.diff; 一 个 差异 剪 切 数据 splicing.diff: 差 异 编码 数据 cds.di 作 以 及 差异 启 动 子 数据 promoters. 
diff。 每 个 文件 内 容 格 式 详细 说 明 见 http: //cufflinks.cbcb.umd.edu/manual.html#cuffdiff_output o 
这 四 个 水 平 的 差异 表达 数据 集 就 是 我 们 需要 的 差异 表达 基因 或 差异 剪 切 ,根据 需要 可 以 解 
下 再 进行 功能 分 析 等 。 
(aF FRR SRA RR) 
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第 七 章 


CHAPTER 7 





转录 调控 的 信息 学 分 析 


BIOINFORMATICS ANALYSIS ON 
TRANSCRIPTION REGULATION 


基因 表达 是 指 细胞 在 生命 过 程 中 ,把 存储 在 DNA 中 的 遗传 信息 经 过 转录 、 剪 接 、 
翻译 以 及 翻译 后 修饰 等 过 程 ,转变 为 具有 生物 活性 的 蛋白 质 分 子 。 作 为 基因 表达 过 
程 的 第 一 步 ,转录 在 基因 表达 过 程 中 起 到 了 至 关 重 要 的 作用 。 哺 乳 动物 有 机 体 约 含 
30 000~40 000 个 基因 ,它们 是 如 何在 适当 的 空间 和 时 间 进 行 转录 调控 的 ,转录 因子 
( TEs ) 是 如 何在 这 些 差异 表达 的 基因 间 行 使 功能 的 ,我 们 需要 明确 转录 调控 机 制 , 开 发 
信息 学 方法 来 解决 这 些 问题 。 本 章 将 介绍 如 何 应 用 信息 学 方法 研究 在 转录 过 程 中 起 
到 关键 作用 的 启动 子 、 转 录 因 子 、 可 变 剪 接 等 功能 位 点 的 特征 ,探讨 转录 调控 机 制 与 人 
”类 疾病 之 间 的 关联 ,以 及 如 何 应 用 信息 学 方法 综合 分 析 这 些 关联 。 








第 一 节 


基因 的 转录 调控 





Section 1 Transcription Regulation 


一 、 转 录 》》 


转录 是 以 一 条 DNA 链 为 模板 ,通过 酶 的 激活 作用 ,利用 碱 基 互 补 配对 的 原则 合成 一 条 与 
模板 DNA 反 向 平行 且 互 补 的 RNA 的 过 程 。 其 中 ,作为 模板 的 DNA 链 被 称 为 “模板 链 "、“ 负 和 链 ” 
或 者 “ 反 义 链 ”( 图 7-1 )。 转 录 与 DNA 自 我 复制 结果 的 不 同 在 于 ,在 转录 产物 RNA 里 , 尿 喀 喧 
CU, uracil ) 替 代 了 DNA 复 制 结果 中 的 胞 喀 啶 CT, thymine )。 


5' ACATCGACGCGCAGTTAATCCC..3' DNA 编 码 链 ( +) 
3” TGTAGCTGCGCGTCAATTAGGG..5' DNA 模 板 链 ( - ) 
5? ACAUCGACGCGCAGUUAAUCCC...3’ 产物 RNA 链 (+) 


图 7-1 转录 过 程 中 的 模板 DNA 链 与 产物 RNA 链 


一 个 完整 的 转录 过 程 可 以 总 结 成 以 下 四 个 中 心 步骤 ; 

1. 上 聚合 酶 结合 到 转录 起 始 位 点 DNA 序列 上 起 始 转 录 的 信号 称 为 启动 子 。 原 核 生 物 聚 
合 酶 可 以 识别 启动 子 并 直接 与 之 结合 。 而 真 核 生物 聚合 酶 需要 借助 其 他 和 蛋白质 ,这 些 和 蛋白 
质 被 称 为 转录 因子 。 

2. 解 开 DNA 双 螺旋 (图 7-2 ) 能 够 解 开 DNA 双 螺旋 结构 的 酶 称 为 解 旋 酶 。 原 核 生物 聚 
合 酶 具有 人 解 旋 活性 ,而 真 核 生 物 聚 合 酶 没有 解 旋 活性 。 所 以 真 核 生物 DNA 双 螺旋 的 解 开 需 
要 借助 于 一 类 特殊 的 转录 因子 。 

3. 基于 DNA 模 板 链 合 成 KNA  RNAXG Bf] = BERK (NTPs ) 构造 一 条 RNA 链 。 

4. 合成 的 终止 ”原核 生物 和 真 核 生 物 使 用 不 同 的 信号 来 终止 转录 。 “ 

在 真 核 细胞 中 ,新 合成 的 RNA 链 在 完成 3 ” 加 poly-A 尾 和 5 7” 加 帽 后 ,通过 核 孔 复合 物 出 
细胞 核 , 进 入 到 细胞 质 中 。 真 核 生 物 的 转录 过 程 比 原核 生物 更 复杂 。 一 个 方面 的 原因 是 真 
核 生 物 DNA 被 组 蛋白 缠绕 ,可 以 阻止 聚合 酶 接近 启动 子 。 

转录 是 基因 表达 的 第 一 步 。 由 DNA 转 录 成 的 一 个 RNA 分 子 称 为 一 个 转录 单元 , 它 可 
以 编码 至 少 一 个 基因 。 如 果 这 个 基因 是 编码 蛋白 质 的 基因 ,那么 转录 成 的 RNA 被 称 为 信使 
RNA( mRNA )。 男 外 ,转录 出 的 基因 还 可 能 编码 核糖 体 RNA( rRNA )、 转 运 RNA( tRNA EA 
装配 过 程 中 的 其 他 组 分 或 者 核 酶 。 
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(à 5’ AC A T CSG A C SG C G CA A 3 


3 * T G T A G C TI G GG C G T T y» 


(b) T C A GG 66 


> 6 e... 
RNAT T T | 


AG C T G C GC 


图 7-2 转录 过 程 中 DNA 双 螺旋 的 打开 
a. 转录 前 的 DNA; b. 在 转录 过 程 中 , DNA 必 须 经 过 解 旋 ， Eme 条 链 能 够 
作为 模板 合成 互补 RNA 


一 个 DNA 转 录 单 元 并 不 是 全 被 翻译 成 蛋白 质 序列 (编码 序列 ), 其 中 还 包含 调控 蛋白 质 
合成 的 调控 序列 。 编 码 序列 上 游 的 调控 序列 称 为 5 非 翻 译 区 ( SUTR ), 编码 序列 下 游 的 调 
控 序列 称 为 3” 非 翻 译 区 ( 3'UTR )。 


—.RNAE&N >>. 


RNA 聚 合 酶 是 一 类 指导 合成 RNA 的 酶 。 在 细胞 中 , RNAREGBEDADNASEDUE AE 
成 RNA 链 ,完成 基因 的 转录 。RNA 聚 合 酶 存在 于 所 有 有 机 体 以 及 许多 病毒 中 , 它 最 早 是 由 
Sam Weiss, Audrey Stevens 以 及 Jerard Hurwitz 在 1960 年 独立 发 现 。2006 年 的 诺 贝 尔 化 学 奖 被 
授予 Roger Kornberg, 以 表彰 他 在 描绘 转录 的 不 同 阶段 中 RNA 聚 合 酶 的 分 子 影 响 研究 中 所 做 
出 的 贡献 。 


(一 ) RNA 聚 合 酶 的 分 类 


1. 原核 生物 ”以 线虫 (E.coli ) 为 例 : 

一 个 线虫 RNA 聚 合 酶 由 五 个 亚 基 组 成 : 两 个 a 亚 基 、B 亚 基 及 B” 亚 基 各 一 个 以 及 
oE, H, B(151kD ) 和 B”(156kD ) 显著 大 于 aw(37kD )。 目 前 , o 亚 基 的 一 些 不 同 
形式 已 经 被 识别 出 来 ,它们 的 分 子 质量 在 28kD 到 70kD 之 间 。o 亚 基 是 一 个 已 知 的 a 因子， 
它 不 仅 在 转录 起 始 位 点 的 识别 中 发 挥 了 重要 的 功能 ,同时 控制 着 打开 DNA 双 螺旋 结构 的 解 
旋 酶 的 活性 。 核 苷 酸 的 合成 过 程 由 其 他 四 个 亚 基 完成 ,它们 被 合 称 为 核心 聚合 酶 。“ 全 酶 ” 
(holoenzyme ) 是 指 一 个 完整 的 并 且 具 有 全 部 功能 的 酶 。 在 E.coli 中 ,全 酶 包括 核心 聚合 酶 和 

o 因子 (图 7-3 )。 

2. 真 核 生 物 “根据 RNA 聚 合 酶 指导 合成 产物 的 不 同 , 真 核 动物 的 RNA 聚 合 酶 可 以 分 成 
三 类 : 分 别 是 RNA 聚 合 酶 II 工 和 亚 。 每 类 聚合 酶 包含 两 个 大 亚 基 及 12~15 个 小 亚 基 。 其 中 ， 
两 个 大 亚 基 与 E.coli 中 的 B 、B“ 亚 基 同 源 , 两 个 小 亚 基 与 E.coli 中 的 o 亚 基 相似 。 但 是 , 真 核 
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全 酶 





图 7-3 原核 生物 RNA 聚 合 酶 的 组 成 


生物 RNA 聚 合 酶 中 不 含有 任何 与 E.coli 的 o 因子 相似 的 亚 基 。 因 此 ,在 真 核 生 物 中 ,转录 的 
起 始 必 须 由 其 他 蛋白 介 导 。 

RNA 聚 合 酶 开 参 与 所 有 和 蛋白质 编 码 基因 以 及 大 多 数 的 snRNA 基 因 的 转录 。 因 此 , RNA 
聚合 酶 开 也 成 为 三 类 RNA 聚 合 酶 中 被 研究 最 多 的 一 类 。 其 他 两 类 RNA 聚 合 酶 仅仅 参与 RNA 
FEA FES. RNAS AAG I 在 核 仁 中 ,转录 除 5S rRNA 外 的 所 有 rRNA 基因 。RNA 聚 合 酶 亚 
在 核 仁 外 ,转录 5S rRNA tRNA 、U6 snRNA 以 及 一 些小 RNA 基 因 。 

另外 , RNASE BSIV RI V 在 植物 中 分 别 指导 siRNA 及 参与 siRNA 定 位 的 异 染色 质 形成 的 
RNA 的 合成 。 


(=) RNA 聚 合 酶 的 功能 


RNA 聚 合 酶 与 DNA 聚 合 酶 都 具有 在 已 存在 的 链 上 继续 添加 核 背 酸 使 之 延长 的 功能 。 这 
两 类 酶 的 主要 区 别 在 于 , RNA 聚 合 酶 可 以 起 始 一 条 新 链 而 DNA 聚 合 酶 并 没有 这 个 能 力 。 因 
此 ,在 DNA 复 制 的 过 程 中 ,必须 先 由 一 个 不 同 的 酶 来 合成 一 段 称 为 引物 的 寡 核 苷 酸 。 


三 、 转 录 调 控 元 件 >>> 


一 个 基因 由 转录 区 与 调控 区 组 成 。 转 录 区 作为 DNA 的 一 部 分 被 转录 成 初级 转录 本 (一 
个 与 转录 区 DNA 互 补 的 RNA 分 子 )。 调 控 区 可 以 被 划分 为 顺 式 调控 ( cis-regulatory, or cis- 
acting ) 元 件 和 反 式 调控 (trans-regulatory ,or trans-acting ) 元 件 。 顺 式 调控 元 件 是 转录 因子 的 
结合 位 点 。 转 录 因 子 (一 类 蛋白质 ) 与 顺 式 调控 元 件 结合 ,可 以 增强 或 抑制 转录 。 反 式 调 控 


第 七 章 ”转录 调控 的 信息 学 分 析 287 
CHAPTER 7 BIOINFORMATICS ANALYSIS ON TRANSCRIPTION REGULATION 


元 件 是 编码 转录 因子 的 DNA 序 列 。 
顺 式 调控 元 件 可 以 被 分 成 以 下 四 种 类 型 (图 7-4 )。 





上 游 下 游 











CO 





GCbox 
CAATbox TATA Inr 
4. —— ————— y 


其 他 ý Y 真 核 生 物 





-200 -160 -120 -80 -40 -1 


图 7-4 基因 的 结构 


转录 区 域 包含 外 显 子 和 内 含 子 。 调 控 元 件 包括 启动 子 .应答 元 件 增强 子 和 沉默 子 。 下 
游 ( downstream ) 指 转录 进行 的 方向 ,上 游 (upstream ) 指 与 转录 相反 的 方向 。 


(一 ) 启动 子 


启动 子 是 DNA 上 转录 起 始 的 一 段 区 域 , 它 是 一 个 转录 开始 的 信息 提供 者 ,通常 位 于 转 
录 起 始 位 点 的 上 游 。RNA 聚 合 酶 能 够 识别 并 与 之 结合 ,从 而 起 始 基 因 转 录 。 转 录 的 起 始 是 
基因 表达 的 关键 阶段 ,而 这 一 阶段 的 重要 问题 是 RNA 聚 合 酶 与 启动 子 的 相互 作用 。 启 动 子 
的 结构 影响 了 它 与 RNA 聚 合 酶 的 亲和力 ,从 而 影响 了 基因 表达 的 水 平 。 在 原核 生物 中 , 启 
动 子 序列 由 RNA 聚 合 酶 中 的 ec 因子 识别 。 以 E.coli 为 例 , E.coli 有 五 类 o AF: o”: 调控 大 
部 分 基因 的 表达 ; o”: 调控 热 激 蛋 白 ( heat shock proteins ) 的 表达 ; o” : 调控 鞭毛 操纵 子 
( flagellar operon ) 的 表达 (与 细胞 移动 有 关 ); o 7 : 调控 基因 表达 对 抗 外 部 压力 ; o”: 调控 
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与 氮 代 谢 相 关 的 基因 表达 。 表 7-1 中 概括 了 由 E.coli 的 o 因子 识别 的 启动 子 的 共有 序列 ( 除 
o “外 ,目前 并 不 清楚 )。 共 有 序列 ( consensus sequence ) 是 与 调控 蛋白 互 作 的 理想 序列 。 一 
个 启动 子 通常 含有 与 共有 序列 一 致 或 者 非常 接近 的 序列 元 件 。 

X7-1 E.colio 因子 与 其 识别 位 点 (启动 子 ) 的 共有 序列 





0 AF 启动 子 共 有 序列 
-35 区 -10 区 
a 70 TTGACA TATAAT 
o 32 TCTCNCCCTTGAA CCCCATNTA 
c 28 CTAAA CCGATAT 
-24 区 -12 区 
c 54 CTGGNA TTGCA 


JE: -10 区 又 称 Pribnow box, N 代 表 任 意 碱 基 。 


在 真 核 生物 中 ,启动 子 由 一 类 特殊 的 转录 因子 识别 。 其 中 ,蛋白 质 编码 基因 与 RNA 基 因 
的 转录 有 显著 区 别 。 在 真 核 生 物 蛋 白质 编码 基因 中 ,最 常见 的 启动 子 元 件 是 TATA box。 它 
通常 位 于 转录 起 始 位 点 上 游 -35 到 -20 个 碱 基 处 。 它 的 共有 序列 为 TATAAA, 这 与 o "在 原核 
生物 -10 区 域 的 识别 位 点 极为 相似 。 另 一 个 启动 子 元 件 被 称 为 起 始 子 (initiator, Inr). ff 
共有 序列 为 PyPyAN( T/A )PyPy, 其 中 Py 代 表 喀 啶 ( CART ),N 代 表 任 意 碱 基 ,( T/A ) 代 表 T 或 A。 
在 第 三 个 位 置 上 的 碱 基 A 位 于 +1, 即 转录 起 始 位 点 。TATA box 和 起 始 子 是 核心 启动 子 元 件 。 
还 有 其 他 位 于 转录 起 始 位 点 200bp 以 内 的 元 件 ,如 CAAT box 和 GC box, 它 们 又 被 称 为 启动 子 
邻近 元 件 ( promoter-proximal elements )。 真 核 生物 启动 子 元 件 的 性 质 详 见 表 7-2。 


表 7-2 真 核 生物 启 动 子 元 件 


BDF 位置 转录 因子 共有 序列 
Inr +1 TBP PyPyA,,N( T/A ) PyPy 
TATA box -35--20 TBP TATAAA 
CAAT box -200--70 CBF, NF1, C/EBP CCAAT 
GC box —-200--70 SP1 GGGCGG 
COE 大 多 数 情况 下 , CAAT 和 6C box 位 于 -200 到 -70 的 位 置 上 。CBF 为 CAAT 结 合 蛋白 ; CIEBp 为 CAAT/ 增 强 
子 结合 蛋白 。 


与 起 始 子 和 TATA box 互 作 的 蛋白 质 被 称 为 TATA-box 结 合 蛋 白 (TATA-box binding 
protein, TBP )。TBP 是 转录 因子 TF ID 的 一 个 亚 基 , 它 不 仅 能 够 识别 蛋白 质 编码 蛋白 的 核心 
启动 子 , 同 时 也 识别 RNA 启 动 子 。 


(二 ) 增强 子 
增强 子 是 一 类 DNA 元 件 ,通过 与 转录 因子 (激活 子 ) 的 结合 ,可 以 增强 转录 。 它 可 以 位 
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于 转录 起 始 位 点 的 上 游 或 下 游 。 大 多 数 增强 子 位 于 转录 起 始 位 点 上 游 。 在 原核 生物 中 , 增 
强 子 与 启动 子 十 分 接近 ,而 真 核 生 物 的 增强 子 可 能 远离 启动 子 。 


(=) 沉默 子 


沉默 子 是 这 样 一 类 DNA 元 件 : 它 通过 与 转录 因子 (抑制 子 ) 结 合 ,可 以 抑制 转录 。 在 原 
核 生 物 中 ,沉默 子 也 被 称 为 操纵 子 ( operators ), 可 以 在 许多 基因 中 找到 ,如 lac 操 纵 子 和 trp 操 
纵 子 。 在 真 核 生 物 中 ,下 列 基因 被 证 明 含 有 沉默 子 : AB globin 基 因 ( binding of HMG-I(Y ) 
elicits siructorál changes in a silencer of the human beta-globin gene. ); 人 CD95( Fas/APO-1 ) 基 
因 ( silencer and enhancer regions in the human CD95 ( Fas/APO-1 ) gene with sequence similarity 
to the granulocyte-macrophage colony-stimulating factor promoter: binding of single strand- 
specific silencer factors and AP-1 and NF-AT-like enhancer factors. ); 人 dopamine beta-hydroxylase 
(DBH) 4£ 因 (The cell-specific silencer region of the human dopamine beta-hydroxylase gene 
contains several negative regulatory elements. ) 以 及 脑 源 性 神经 营养 因子 基因 ( brain-derived 
neurotrophic factor expression in vivo is under the control of neuron-restrictive silencer element. )。 

在 少数 情况 下 ,一 个 DNA 元 件 可 以 根据 所 结合 的 蛋白 质 来 发 挥 增强 子 或 者 沉默 子 的 作 
用 。 例 如 ,一 些 基因 含有 一 个 称 为 E box 的 元 件 ( 共 有 序列 为 CACGTG ), 它 可 以 与 Max/Myc 二 
聚 物 或 者 Max/Mad 二 聚 物 结 合 。Max/Myc 二 聚 物 可 以 激活 转录 ,而 Max/Mad 二 聚 物 则 抑制 这 
些 基 因 的 转录 。 


(四 ) 响应 元 件 


响应 元 件 是 一 类 转录 因子 的 识别 位 点 ( 表 7-3 )。 大 部 分 响应 元 件 位 于 转录 起 始 位 点 1kb 
范围 内 。 


表 7-3 真 核 生物 响应 元 件 


响应 元 件 转录 因子 Soe ”共有 序列 
CRE CREB TGACGTCA 
ERE WERE AZAK( Estrogen receptor ) AGGTCANNNTGACCT 
GRE 糖 皮质 激素 受 体 ( Glucocorticoid receptor ) AGAACANNNTGTTCT 
HSE 热 休克 因子 ( Heat shock factor ) GAANNTTCNNGAA 
SRE 血清 应 答 因 子 ( Serum response factor ) CC( A/T ),GG 


注 :( NT )6 为 6 个 A 或 T。 


cAMP 应 答 元 件 ( CRE ) 与 CREB( CRE 结 合 蛋白 ) 相 互 作 用 , CREB 由 cAMP 调 控 。 
SHER NASCE ERE ) 和 糖 皮质 激素 应 答 元 件 (GRE ) 分 别 是 肉 激 素 受 体 和 糖 皮质 激 


素 受 体 的 识别 位 点 。 需 要 注意 的 是 ,虽然 激素 本 身 不 是 转录 因子 ,但 是 许多 激素 的 受 体 却 是 
转录 因子 。 


血清 应 答 元 件 (SRE ) 与 血清 应 答 因子 ( SRF ) 结 合 , SRF 可 以 被 许多 血清 中 的 生长 因子 
激活 。AP-1 的 Fos 亚 基 由 一 个 包含 SRE 的 基因 编码 , Fos 通 常 被 认为 在 细胞 周期 过 程 中 发 挥 
了 重要 的 作用 。 
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四 、 真 核 生 物 转录 机 制 >>> 


在 真 核 生物 中 , DNA 组 装 成 染色 质 , 通 过 限制 RNA 聚 合 酶 及 其 附属 因子 与 DNA 的 结合 将 
基因 维持 在 一 个 “ 失 活 ”的 状态 。 染 色 质 由 组 蛋白 构成 ,组 蛋白 形成 的 结构 称 为 核 小 体 。 组 
蛋白 可 以 被 翻译 后 修饰 ,通过 降低 核 小 体 的 能 力 从 而 抑制 转录 因子 的 结合 。 基 因 的 “开启 ” 
和 “关闭 ”是 一 个 预 编 程 的 方式 , 即 一 个 最 终 形成 细胞 特异 性 的 过 程 。 这 个 编程 的 过 程 是 由 
转录 因子 精心 策划 的 ,它们 通常 与 被 它们 控制 的 基因 附近 的 一 些 特殊 DNA 位 点 相 结合 。 单 
个 的 转录 因子 并 不 能 决定 一 个 调控 事件 。 相 反 ,组合 控 制 机 制 才 是 调控 的 关键 。 在 组 合 控 
制 中 ,不 同 组 合 以 及 细胞 类 型 特异 的 蛋白 质 主导 了 基因 的 开关 。 
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Section 2 Bioinformatics Analysis on Promoter 


一 、 启 动 子 识别 问题 》》 


真 核 基因 的 识别 问题 一 直 是 生物 信息 学 的 一 个 重要 内 容 ,基因 启动 子 区 的 识别 是 完整 
基因 结构 识别 中 的 重要 一 环 。 启 动 子 是 一 段位 于 结构 基因 5” 端 上 游 的 DNA 序 列 , 能 活化 
RNA 聚 合 酶 ,使 之 与 模板 DNA 准 确 地 结合 并 具有 转录 起 始 的 特异 性 。 转 录 的 起 始 是 基因 表 
达 的 关键 阶段 ,而 这 一 阶段 的 重要 问题 是 RNA 聚 合 酶 与 启动 子 的 相互 作用 。 启 动 子 的 结构 
影响 了 它 与 RNA 聚 合 酶 的 亲和力 ,从 而 影响 了 基因 表达 的 水 平 。 人 类 启动 子 区 的 识别 是 生 
物 医 学 研究 的 基本 需要 ,是 构建 基因 调节 网 络 的 一 个 核心 问题 。 负 责 mRNA 转 录 的 RNA Pol 
开启 动 子 是 启动 子 中 数量 最 多 ,也 是 最 重要 的 一 类 。 

在 早期 的 启动 子 预测 的 研究 中 , 隐 马 尔 科 夫 模型 .类 神经 网 络 .数据 挖掘 与 权重 矩阵 等 
方法 被 广泛 应 用 。 目 前 预测 启动 子 主要 从 鉴定 启动 子 的 转录 起 始 位 点 核心 启动 子 区 域 、 转 
录 因 子 结合 域 和 启动 子 的 CpG 岛 四 个 方面 出 发 。 但 是 , 当 用 这 些 启 动 子 预 测 工具 来 处 理 未 
知 的 复杂 的 DNA 序 列 时 ,识别 的 结果 往往 是 比较 严重 的 遗漏 和 偏 高 的 假 阳 性 率 。 


二 、 启 动 子 数据 资源 >> 


公共 分 子 信 息 数 据 库 包括 基因 图 谱 数 据 库 、 核 酸 序列 数据 库 、 蛋 白质 序列 数据 库 、 大 分 
子 结构 数据 库 等 。 这 些 数 据 库 由 专门 的 机 构建 立 和 维护 ,他 们 负责 收集 组织、 管理 和 发 布 
生物 分 子 数据 ,并 提供 数据 检索 和 分 析 工具 ,向 生物 学 研究 人 员 提 供 大 量 有 用 的 信息 ,最 大 
限度 地 满足 他 们 的 研究 需要 ,为 生物 信息 学 研究 提供 服务 。 

目前 ,国际 上 有 三 个 主要 的 核酸 序列 数据 库 : 美国 国家 生物 技术 信息 中 心 ( NIH ) 建立 
的 DNA 数 据 库 , GenBank; 欧洲 生物 信息 研究 院 ( European bioinformatics institute, EBI ) 创 
建 的 核 苷 酸 序列 数据 库 , EMBL; 以 及 日 本 DNA 数 据 库 , DDBJ( DNA data bank of Japan ),( 表 
7-4 )。 这 三 个 数据 库 分 别 在 全 世界 范围 内 收集 序列 信息 ,同时 ,他 们 每 天 都 将 新 发 现 或 更 新 
过 的 数据 相互 交换 。 
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表 7-4 国际 性 的 核 车 序列 数据 库 


数据 库 | Lm 
GenBank http: //www.ncbi.nlm.nih.gov/ 
EMBL nucleotide sequence database http: //www.ebi.ac.uk/embl/ 
DNA data bank of Japan( DDBJ ) http: //www.ddbj.nig.ac.jp/ 


在 本 节 中 使 用 的 启动 子 数据 ,除了 可 以 从 上 文 提 到 的 三 个 综合 性 数据 库 中 下 载 外 ,还 有 
一 些 专门 针对 启动 子 数据 建立 的 数据 库 ( 表 7-5 )。 这 些 数 据 库 通常 是 启动 子 识别 研究 工作 
者 们 获取 启动 子 数据 的 主要 来 源 。 各 个 数据 库 的 数据 描述 和 数据 的 收集 方法 及 开发 工具 等 
在 其 网 站 上 均 有 详尽 的 描述 ,用 户 可 以 根据 自己 的 需要 来 选择 搜索 并 下 载 相关 的 数据 。 这 
些 数 据 提 供 了 启动 子 的 序列 信息 、 位 置信 息 以 及 类 别 信息 等 ,并 且 其 中 的 部 分 数据 库 , 如 真 
核 生 物 启动 子 数据 库 (EPD ) 等 ,还 保证 了 所 含 启动 子 数据 非 元 余 性 。 


表 7-5 部 分 启动 子 /转录 起 始 位 点 数据 库 及 网 址 


| 数据 库 网 址 
eukaryotic promoter database ( EPD ) http: //www. epd. isb-sib. ch/ 
database of transcriptional start sites ( DBTSS ) http: //dbtss. hgc. jp/ 
hematopoiesis promoter database ( HemoPDB ) http: //bioinformatics. wistar. upenn. edu/HemoPDB 
mammalian promoter database ( MPromDb ) http: //bioinformatics. wistar. upenn. edu/HemoPDB 
human chromosome 22 promoter data http: //www. sanger. ac. uk/about/history/hgp/chr22. html 
transcription regulatory regions database ( TRRD ) http: //www. bionet. nsc. ru/trrd/ 


transcriptional regulatory element database( TRED ) http: //rulai. cshl. edu/cgi-bin/TRED/tred. cgi ? 


processchome 


(一 ) 真 核 基 因 启 动 子 数据 库 EPD/EPDnew 


1. 数据 库 概 况 ” 真 核 基 因 启 动 子 数据 库 (eukaryotic promoter database, EPD) 由 以 色 列 
Rehovot 的 Weizmann 科学 研究 所 设计 和 开发 。 目 前 , 由 Epalingess/ 瑞 士 洛桑 的 ISREC 管 理 和 
维护 。 由 两 个 实验 室 协作 完成 的 更 新 程序 将 会 确保 EPD 中 的 位 置 参考 和 主 数据 库 中 序列 数 
据 的 兼容 性 。EPD 作 为 EMBL 数 据 库 中 的 一 个 专门 的 注释 数据 库 ,提供 了 相关 真 核 生物 启动 
子 的 信息 , 以 帮助 实验 研究 人 员 及 生物 信息 学 研究 人 员 分 析 真 核 基因 的 转录 信号。EPD 目 
前 的 版 本 源 于 文献 , 以 层次 分 类 顺序 组 织 起 来 ,所 记录 的 功能 位 点 数据 集 指 向 转录 起 始 位 
点 。EPD 中 的 所 有 信息 或 者 直接 来 源 于 科学 文献 ,或 者 从 第 73 版 本 继承 。 因 此 , EPD 中 的 局 
动 子 信 息 独 立 于 EMBL 序 列 条 目 描述 。 同 样 , EPD 中 出 现 的 许多 起 始 位 点 并 不 出 现在 相应 的 
EMBL 功 能 表 中 。EPD 是 目前 唯一 的 实验 证 实 启动 子 数据 库 ,所 以 是 各 种 预测 软件 的 评论 手 
段 之 一 。 

作为 一 个 带 有 注释 信息 的 非 元 余 真 核 生物 聚 合 酶 (POL ) T 启动 子 数据 库 , EPD 中 的 转 
录 起 始 位 点 信息 均 由 实验 证 实 , 如 : 是 否 为 真 核 RNA 聚 合 酶 开启 动 子 是否 在 高 等 真 核 生物 





第 七 章 ”转录 调控 的 信息 学 分 析 293 
CHAPTER 7 BIOINFORMATICS ANALYSIS ON TRANSCRIPTION REGULATION 


中 有 生物 学 活性 、 是 否 与 数据 库 中 的 其 他 启动 子 有 同 源 性 等 。 一 个 条 目的 注释 部 分 包括 对 
起 始 位 点 映射 数据 的 描述 .与 其 他 数据 库 的 交叉 引用 (如 EMBL、SWISS-PROT 、TRANSFAC 
等 ) 以 及 对 参考 文献 的 描述 。EPD 的 结构 及 组 织 方式 有 利于 动态 提取 有 生物 学 意义 的 启 
动 子 集 用 于 序列 比较 分 析 。 截 至 本 书 编 稿 ,该 数据 库 已 经 包含 了 十 个 物种 共 4806 条 启动 子 
序列 。 

EPDnew 重 新 收集 了 在 人 类 和 小 鼠 基 因 组 中 经 过 实验 验证 的 启动 子 。 证 据 来 自 CAGE、 
TSS-seq 等 高 通 量 实验 的 TSS 图 谱 。 分 析 时 同时 考虑 了 H2AZ、H3K4me3、POLI 及 DNA 甲 基 
化 的 ChIP-seq 实 验 结果 。 数 据 库 最 终 包 含 9716 个 人 类 启动 子 和 9773 个 小 鼠 启 动 子 。 

2. 启动 子 数据 的 检索 ”用户 可 以 直接 从 EPD 网 站 的 FTP 站 点 批量 下 载 Fasta 格 式 的 启动 
子 数据 。 也 可 以 在 Download EPD db 中 , 依照 所 需 启动 子 的 位 置 及 大 小 获取 数据 。 如 图 7-5 
中 选择 的 是 TSS 上 游 -499bp 至 下 游 100bp, 长 度 为 600bp 的 启动 子 序列 。 

3. 数据 的 格式 ”EPD 中 的 数据 采用 本 质 上 相同 的 两 种 ASCII 格 式 ( epd.dat, epd_bulk.dat ) 
存储 。EPD 文 件 包含 一 个 标题 行 (图 7-6 ), 随 后 记录 了 一 系列 的 启动 子 数据 。 为 了 使 整个 数 
据 库 与 现 有 信号 搜索 分 析 软 件 使 用 的 标准 FTP 文 件 格 式 一 致 ,标题 行 和 启动 子 数据 的 部 分 
子 项 均 有 固定 的 格式 。 

每 条 启动 子 数 据 的 存储 格式 与 EMBL 及 SWISS-PROT 序 列 数据 的 存储 格式 相似 。 每 行 


za gi EUKARYOTIC PROMOTER DATABASE 
Computational Cancer Genomics | £xPASy | EPP 














SEARCH 

Acvance search 

Download the complete promoter collection or a subset of it for the folowing databases 

Cid Cownioad EPDnew human wm[499 wh as [Fasta 到 DOWMLOAD 

prosit st Download EPDnew mouse wapa efo 1a [Fone ‘DOWMLOAD 
CHEE ooo ao mapa bjo sfa (ROMA 
Co 
me 

图 7-5 特定 位 置 启动 子 数据 的 下 载 
Tl EPD83 Eukaryotic Promoter Database / Release 83 EP 


图 7-6 EPD 数 据 标 题 行 示 例 
开始 是 一 个 行 标 ,定义 本 行 所 表述 信息 的 类 别 。 行 标的 意义 见 表 7-6。 
表 7-6 EPD 数 据 行 Code 对 应 意义 


Code 解释 

ID identification 

AC accession number( s ) 
DT Date 


DE description 
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ak 
OS organism species 

HG homology group 

AP alternative promoter 

NP neighbouring promoter 
DR database cross—references 
RN reference number 

RX Reference cross—references 
RA reference authors 

RT reference title 

RL reference location 

ME methods 

SE sequence 

FL full length 

IF initiation frequency 

TX taxonomy 

KW key words 

FP functional position 

DO documentation 

RF literature reference 

// termination line 


其 中 每 个 条 目 具 体 的 解释 可 以 在 数据 库 网 站 提供 的 用 户 手册 中 查找 到 。 

[ 例 7-1 ] 试 从 EPD 数 据 库 中 查找 到 10 条 人 类 启动 子 数据 ,启动 子 的 大 小 为 转录 起 始 位 点 
上 游 -1300bp 至 TSS 下 游 +49bp。 利 用 该 网 站 提供 的 比 对 工具 进行 BLAST 比 对 。 

解答 : 四 登录 EDP 数 据 库 : http: //epd.vital-it.ch/; @@ 从 数据 库 页 面 左 侧 Access EPD 功 能 
中 选择 Download EPD db; @ 在 Download EPDnew human 中 将 所 需 启 动 子 范 围 定 在 -1300bp 到 
49bp, 点 击 download; 选择 10 条 满足 条 件 的 fasta 格 式 序列 在 blast 工 具 中 比 对 即 可 得 到 比 对 
结果 。 : 


(=) 转录 起 始 位 点 数据 库 DBTSS 


1. 数据 库 概 况 DBTSS (database of transcriptional start sites ) 是 东京 大 学 医学 科学 院 人 
类 基因 组 中 心 Chuman genome center; institute of medical science; The University of Tokyo) 开发 
的 一 个 关于 启动 子 及 转录 调控 的 研究 数据 库 。 其 中 包含 了 精确 的 真 核 生 物 mRNA 转 录 起 始 
位 点 信息 。 在 最 近 版 本 中 , 数据 库 增 加 了 新 的 TSS 数 据 , 使 数据 库 覆 盖 了 大 部 分 成 人 及 胚胎 
组 织 。 目 前 , DBTSS 包 含 收集 自 20 个 组 织 及 7 个 细胞 系 的 49,100 万 条 TSS 标 签 序列 。 数 据 库 
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还 整合 了 最 近 产 生 的 RNA-seq 数 据 及 组 蛋白 修饰 的 ChIP-seq 数 据 。 用 户 不 仅 可 以 得 到 精确 
的 TSS 位 置信 息 , 还 能 得 到 它们 的 表达 水 平 , 这 有 助 于 进一步 推断 启动 子 上 游 区 域 并 理解 基 
因 的 转录 调控 。 

2. 数据 库 检 索 DBTSS 的 主要 有 个 四 个 部 分 构成 ,分 别 是 : 数据 库 搜索 模块 、TSS-Seq/ 
SNP 信 息 搜索 模块 .分 析 工 具 模块 及 下 载 模块 。 在 其 网 站 主页 的 左边 栏 可 以 清晰 地 看 到 各 
个 模块 的 构成 及 功能 (图 7-7)。 





Database Search 


一 一 - 
| 
= j 
r 
— 





Gep,2011 update) 


(Sep 201 update) 





图 7-7 DBTSS 数 据 库 的 构成 
A. 选择 所 要 搜索 的 物种 ; B. 搜 索 TSS-Seq 数 据 时 ,选择 “TSS Seq"; 搜索 cDNA 数据 时 ,选择 “Sanger"; C. 输 
入 查询 条 件 ; D. 搜索 TSS-Seq 数 据 时 ,输入 最 小 ppm; 搜索 cDNA 数据 时 ,输入 克隆 /标签 号 ; E、F.TSS-Seq/SNP 
信息 搜索 模块 ; 6. 非 编码 RNA 浏 览 器 ; H. 比 较 浏 览 器 ; 1. 转录 因子 结合 位 点 搜索 工具 ; U.SNP 搜 索 工 具 ;K. 数 
据 库 下 载 FTP 
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用 户 可 以 根据 不 同 的 需求 ,使 用 不 同 的 搜索 及 分 析 工 具 。 

[ 例 7-2 ] 试 在 DBTSS 数 据 库 查 找 CTCF( CCCTC ) 在 人 类 MCF7 细 胞 系 中 可 能 的 转录 因子 
结合 位 点 。 

解答 : 登录 到 DBTSS 数 据 库 : http: //dbtss.hgc.jp/; 四 在 数据 库 左 侧 工具 栏 中 Analvsis 
Tools 中 点 击 Search for TF Binding Site LA; @ 选 择 目 标 物 种 和 细胞 系 : 人 类 MCF7 ,设置 转 
录 因 子 位 置 ,点 击 create selection table 按 钮 ; 由 在 模式 输入 框 中 , 填 人 所 查找 的 CTCF 的 结合 
motif: CCCTC ,点 击 搜索 , 即 可 得 到 可 能 的 转录 因子 结合 位 点 信息 。 


(=) 哺乳 动物 启动 子 数据 库 (mammalian promoter database, MPD) 


数据 库 概 况 : 在 后 基因 组 时 代 , 基因 调控 网 络 的 性 质 逐 渐 成 为 基因 组 研究 中 重要 的 一 
部 分 。MPD 就 是 在 这 个 时 候 建立 的 关于 基因 、 启 动 子 .转录 因子 结合 位 点 以 及 其 他 顺 式 调控 
元 件 的 一 个 高 质量 且 全 面 的 数据 库 。 数 据 库 全 称 为 冷泉 港 实验 室 哺乳 动物 启动 子 数 据 库 
(CSHLmpd)。 数 据 库 使 用 了 所 有 已 知 的 转录 本 及 完整 的 预测 转录 本 ,构建 了 人 类 、 大 鼠 和 小 
鼠 基 因 组 的 基因 集合 。 其 中 的 启动 子 信息 包含 预测 得 到 的 启动 子 。 数 据 库 中 的 启动 子 全 部 
映射 到 基因 组 中 ,和 相关 基因 相连 。 数 据 库 还 对 垂直 同 源 基 因 组 的 启动 子 进行 了 比较 分 析 ， 
以 检测 启动 子 区 域 序 列 的 保守 性 。 

使 用 CSHLmpd 有 助 于 基因 调控 网 络 的 研究 , 它 向 如 DNA microarray 等 实验 提供 研究 
指导 。 


三 、 真 核 生 物 启动 子 在 线 分 析 工 具 》》 


(—) Promoter 2.0 Prediction Server 


Promoter2.0 预 测 服务 器 ( http: //www.cbs.dtu.dk/services/Promoter/ ) 的 主要 功能 是 在 DNA 
序列 中 预测 脊椎 动物 POLII 启 动 子 的 转录 起 始 位 点 。 它 以 神经 网 络 和 遗传 算法 为 基础 ,已 经 
发 展 成 为 一 个 模拟 在 启动 子 区 域 序列 相互 作用 的 转录 因子 的 工具 。 

1. 输 入 序列 的 处 理 “有 两 种 方式 输入 序列 。 一 种 是 将 一 条 或 多 条 FASTA 格 式 序列 直接 
粘贴 到 服务 器 主页 上 部 的 序列 输入 窗口 中 。 除 此 之 外 ,还 可 以 从 本 地 硬盘 中 选择 待 处 理 的 
FASTA 文 件 , 直 接 上 传 。 两 种 方式 计算 时 间 相 同 。 需 要 注意 的 是 ,序列 文件 中 所 用 字符 必须 
为 A,C,G,T 或 X。 其 中 X 代 表 未 知 碱 基 ,所 有 其 他 的 字符 必须 在 处 理 前 转换 成 X。 单 次 输入 
限制 为 最 多 50 条 序列 或 150 万 碱 基 。 

2. 选 择 输出 格式 ”默认 输出 格式 只 显示 预测 结果 。 若 想 在 结果 中 包含 输入 序列 , 则 需 
要 点 击 “Full output” 按 钮 。 ` 


(二 ) PromoSer 


人 们 对 转录 调控 机 制 研究 的 关注 点 一 般 在 基因 启动 子 区 域 附 近 。 人 们 需要 获取 这 些 区 
域 来 寻找 大 量 相关 基因 。 用 计算 的 方法 来 预测 整个 基因 组 的 启动 子 及 基因 在 很 大 程度 上 依 
赖 于 训练 模型 时 使 用 的 预先 确定 的 数据 集 。 这 就 需要 收集 大 量 高 精确 度 的 启动 子 序列 。 

PromoSer( http: //cagt.bu.edu/page/Promoser_submit ) “| 是 一 个 基于 网 络 的 服务 , 旨 在 提 
取 大 量 哺乳 动物 基因 组 启动 子 序列 。 为 了 识别 一 个 基因 的 转录 起 始 位 点 (TSS ), 创 立 者 将 所 
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有 可 用 的 mRNA 及 EST 序 列 数据 映射 到 基因 组 中 ,通过 跟踪 重 芭 比 对 ,获得 这 些 序 列 最 大 的 
延伸 可 能 ,最 终 确定 TSS。 

PromoSser 易 于 使 用 。 只 要 提供 一 个 GenBank 登 录 ID 列 表 , 以 确定 感 兴 趣 的 基因 ,并 输入 
所 需 TSS 的 侧翼 范围 。PromoSer 处 理 输入 并 返回 一 个 含有 所 需 区 域 的 多 重 FASTA 格 式 文件 。 





(三 ) neural network promoter prediction, NNPP 


NNPP( http: //www.fruitfly.org/seq_tools/promoter.html ) 是 一 个 在 DNA 序 列 中 发 现 真 核 及 
原核 生物 启动 子 的 方法 。NNPP 程 序 以 一 个 时 间 延 迟 神经 网 络 为 基础 。 时 间 延 迟 神经 网 络 
主要 包含 两 个 功能 层 : 一 个 用 来 识别 TATA-box, 男 一 个 识别 “起 始 子 ”, 即 一 段 包 含 转录 起 始 
位 点 的 区 域 。 两 个 功能 层 合并 成 一 个 输出 单元 ,输出 的 得 分 在 0~1 之 间 。 

[ 例 7-3 ] 在 GenBank 中 查找 一 条 真 核 生物 DNA 序 列 , 利 用 真 核 生物 启动 子 在 线 分 析 软 件 
预测 分 析 启 动 子 区 域 ,并 分 析 启 动 子 特征 。 

解答 : 用 前 文 介绍 的 在 线 分 析 软 件 做 实验 练习 。 


四 、 启 动 子 识别 的 信息 学 研究 方法 >>. 


由 于 启动 子 在 基因 转录 过 程 中 发 挥 着 至 关 重 要 的 调控 作用 ,使 得 对 启动 子 的 识别 研究 
成 为 科学 研究 者 关注 的 焦点 。 

从 研究 的 方法 上 看 ,目前 已 经 发 表 的 用 于 启动 子 预测 程序 的 识别 技术 有 基于 神经 网 络 、 
线性 和 二 次 判别 ( quadratic discriminate ) 分析、 相关 癌 量 机 ( relevance vector machine )、 启 动 
子 区 域 的 统计 性 质 、 改 进 的 马尔 可 夫 模 型 ,以 及 这 些 方法 的 结合 。 

比如 常用 的 计算 机 预测 启动 子 方法 中 , TSSG 和 TSSW 使 用 了 位 点 比重 阵列 ( position 
weight matrix, PWM ), Core Promoter 使 用 了 二 次 判别 式 分 析 ( quadratic discriminant analysis, 
QDA ); 基于 隐 马 尔 可 夫 模 型 ( HMM ) 的 方法 Audic 和 Mcpromoter 中 , Audic 是 HMM 结 合 贝 
叶 斯 定律 ， Mcpromoter 使 用 了 了 HMM 结合 高 斯 分 布 曲线 ; 而 DranonPF、DragonGSF、NNPP2.2、 
Promoter2.0 用 人 工 神 经 网 络 (artificial neural network, ANN ) 作为 方法 设计 的 一 部 分 ， 
Promoter2.0 使 用 遗传 算法 ( genetic algorithm, GA ), 而 NNPP 义 结合 了 时 间 延 迟 神经 网 络 ( time- 
delay neural network, TDNNS ) 和 位 点 修剪 。 除 了 计算 及 统计 方法 上 的 不 同 之 外 ,一 些 方法 
还 对 序列 本 身 的 性 质 加 以 利用 ,比如 PromFind 和 PromoterInspector 应 用 了 六 聚 体 和 低 聚 复合 
物 的 性 质 , DragonPF、DragonGSF、Eponine 和 FirstEF 考 虑 了 G + C 的 含量 ; Eponine、NNPP2.2 和 
Promoter2.05 LÀ T "TATA &&" 模块; CpGProD、DragonGSF 和 FirstEF 从 不 同 角度 对 CpG 岛 提供 
的 信息 加 以 利用 。 

基于 对 以 上 方法 的 了 解 ,我 们 可 以 将 用 计算 的 方法 来 预测 识别 启动 子 的 方法 大 致 分 成 
三 类 : 一 类 是 基于 统计 或 内 容 的 方法 ,这 类 方法 通过 计算 低 聚 核 苷 酸 的 重复 频率 或 比较 转录 
因子 结合 位 点 出 现 的 频率 来 对 启动 子 进行 分 析 。 第 二 类 是 基于 神经 网 络 的 方法 ,这 类 方法 
使 用 了 ANN 这 种 信息 处 理 系统 对 启动 子 进行 识别 。 大 部 分 的 方法 属于 第 三 类 , 即 对 前 两 类 
技术 的 结合 利用 。 以 Dragon Promoter Finder( DragonPF ) 为 例 , DragonPFZé — + Tj FF HE oh 
物 启动 子 的 综合 的 启动 子 预测 模型 。 它 结合 了 对 一 段 未 知 序列 依次 进行 五 聚 体 筛选 、_ PWM 
位 点 分 析 、 信 号 处 理 以 及 人 工 神经 网 络 的 方法 。 目 前 启动 子 识别 问题 的 发 展 趋势 是 将 启动 
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子 和 编码 外 显 子 以 及 内 含 子 等 非 启动 子 序列 同时 加 以 考虑 ,并 用 合成 的 方法 来 分 析 。 

从 研究 方法 所 着 眼 解 决 的 问题 上 对 启动 子 识别 问题 进行 分 类 : 随 着 识别 方法 研究 的 不 
断 发 展 ,对 启动 子 序列 的 研究 渐渐 主要 分 成 解决 识别 一 段 序列 是 否 是 启动 子 以 及 在 识别 的 
同时 确定 一 段 基因 的 转录 起 始 位 点 两 大 类 问题 。 

目前 常用 的 RNA POL II 启动 子 识别 方法 见 表 7-7, 常 用 的 转录 起 始 位 点 识别 方法 见 表 
7-8, 另 外 ,还 有 一 些 一 般 的 基因 识别 方法 可 以 用 来 进行 RNA POLI 以 及 其 他 特征 ( MARs、 
CpG 岛 ) 的 检测 , 见 表 7-9。 


表 7-7 常用 的 RNA POL I 启动 子 识 别 方法 


方法 名 称 S 相关 网 站 及 信息 








Audic/Claverie EN cnrs—mrs. APR 


CorePromoter http: //rulai.cshl.edu/tools/genefinder/CPROMOTER/index.htm 

FunSiteP http: //compel.bionet.nsc.ru/FunSite/fsp.html 

ModelGenerator/ : : : 

Wd ne http: //www.gsf.de/ieg/groups/biodv/modyproject.html 

PPNN http: //www.fruitfly.org/seq_tools/promoter.html 

PromFD 1.0 FTP 

PromFind 2.0 http: //www.rabbithutch.com/ 

Promoter 2.0 http: //www.cbs.dtu.dk/services/Promoter/ 

Promoter Scan http: //thr.cit.nih.gov/molbio/proscan/ 

TSSG/TSSW http: //www.softberry.com/berry.phtml ? topic-index&group-programs&subgroup-promoter 


37-8 常用 转录 起 始 位 点 识别 方法 











LIU IM 相关 网 站 及 信息 
MatInd/MatInspector/FastM w /Iwww.gsf. eieaa html 
MATRIX SEARCH 1.0 [5] chenq@boulder.colorado.edu & 3X ifj 2K 
PatSearch 1.1 http: //www.800xe.de/webwatch/Patsearch-Das-private-Experiment.html 
Signal Scan http: //bimas.dcrt.nih.gov/molbio/signal/ 
TESS http: //www.cbil.upenn.edu/tess/ 
TFSEARCH http: //www.cbre.jp/research/db/TFSEARCH.html 
#7-9 用 于 分 析 RNA POLI 的 基因 识别 方法 
Jaga ee i 
GENSCAN http: //genes.mit.edu/GENSCAN.html 
GRAIL http: //compbio.ornl.gov/Grail-1.3/ 


MAR-Finder http: //www.futuresoft.org/MAR-Wiz/ 
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续 表 
WebGene http: //www.itb.cnr.it/sun/webgene/ 
GENSCAN http: //genes.mit.edu/GENSCAN.html 
GRAIL http: //compbio.ornl.gov/Grail-1.3/ 


从 研究 者 使 用 的 数据 上 分 类 ,一 部 分 人 选择 广义 概括 的 启动 子 序列 进行 研究 ,如 真 核 生 
物 启动 子 或 脊椎 动物 启动 子 序列 ; 而 男 一 部 分 人 则 选择 使 用 更 特殊 化 的 启动 子 ,如 大 肠 埃 希 
菌 启动 子 。 

但 是 ,由 于 : 中 核心 启动 子 ( core promoter ) 并 不 是 一 个 单一 的 类 型 ; @) 启 动 子 序列 之 外 
还 有 许多 额外 的 调整 元 素 ; (3 转录 过 程 可 能 被 规则 的 蛋白 质 ( regulatory proteins ) 活化 或 抑 
制 ; 由 转录 催化 剂 和 抑制 剂 有 特定 的 作用 并 且 与 细胞 类 型 和 在 细胞 周期 中 的 点 均 有 关系 等 
原因 ,使 得 对 启动 子 的 识别 仍然 是 一 项 很 艰难 的 工作 。 现 已 发 表 的 对 不 同类 型 生物 或 物种 
启动 子 识别 的 方法 仍然 很 难 达到 一 个 好 的 准确 度 。 由 于 分 析 问 题 的 复杂 程度 以 及 解决 问题 
的 方法 的 不 同 , 现 有 方法 对 整个 人 类 基因 组 启动 子 识别 的 准确 率 仅 为 530.00% 左 右 ,而 对 特定 
种 类 的 启动 子 数 据 的 识别 准确 率 在 85.00%~86.00% 之 间 ,并 且 仍 然 存在 相当 高 的 假 阳 性 率 。 
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第 三 节 
转录 因子 结合 位 点 的 信息 学 研究 


Section3 Bioinformatics Analysis on TF Binding Site 


一 、 转 录 因子 及 其 转录 调控 机 制 >> 


在 分 子 生物 学 和 遗传 学 中 ,一 个 转录 因子 (有 时 被 称 为 序列 特异 的 DNA 结 合 因 子 ) 是 一 
个 能 与 特异 DNA 序 列 结合 的 蛋白 质 。 转 录 就 是 调控 遗传 信息 从 DNA 传 递 到 mRNA 的 过 程 。 
转录 因子 可 以 单独 或 与 其 他 蛋白 质 形 成 复合 体 , 提 高 或 阻 断 特 异 基 因 对 RNA 聚 合 酶 的 招募 。 

转录 因子 的 一 个 特点 是 它 包 含 一 个 或 多 个 DNA 结 合 域 ( DNA-binding domain, DBDs ), 
通过 这 些 结合 域 与 基因 附近 的 DNA 序 列 结合 ,从 而 完成 调控 。 其 他 蛋白 质 ,如 共 激 活 因 子 
( coactivators ), 染色 质 重 构 因子 ( chromatin remodelers ), 组 和 蛋白 乙醚 化 酶 ( histone acetylases ), 
去 乙酰 化 酶 ( deacetylases ), XE kinases ) 和 甲 基 化 酶 ( methylases ), 虽 然 在 基因 调控 中 同样 
起 着 重要 作用 ,但 是 由 于 缺少 DNA 结 合 域 ,因而 并 没有 被 归 类 为 转录 因子 。 


(一 ) 转录 因子 在 不 同 生物 中 的 保守 性 


转录 因子 存在 于 所 有 生物 体 中 ,对 基因 表达 调控 来 说 是 必 不 可 少 的 。 在 一 个 生物 体内 
转录 因子 的 数量 随 着 基因 组 大 小 的 增加 而 增长 , 较 大 的 基因 组 每 个 基因 倾向 于 有 更 多 的 转 
录 因 子 。 在 人 类 基因 组 中 大 约 有 2600 个 含有 DNA 结 合 结构 域 的 蛋白 质 ,其 中 大 多 数 被 假设 
具有 转录 因子 功能 。 因 此 ,基因 组 中 大 约 10% 的 基因 编码 转录 因子 ,这 使 得 这 个 家 族 成 为 最 
大 的 人 类 和 蛋白 质 家 族 。 此 外 ,基因 的 两 侧 往往 存在 不 同 的 转录 因子 结合 位 点 ,这 些 基 因 的 高 
效 表达 需要 几 个 不 同 的 转录 因子 的 协同 作用 。 


(二 ) 转录 因子 调控 机 制 


转录 因子 可 以 与 受 其 调控 基因 临近 DNA 上 的 增强 子 或 启动 子 区 域 结 合 。 根 据 转录 因子 
的 不 同 , 相 邻 基因 的 表达 可 能 被 上 调 或 下 调 。 转 录 因 子 有 多 种 调控 基因 表达 的 机 制 ,包括 : 

1. 稳定 或 组 织 RNA 聚 合 酶 与 DNA 结 合 。 

2. 催化 组 蛋白 的 乙酰 化 或 脱 乙 酰 化 ”转录 因子 可 以 直接 或 招募 其 他 带 有 这 一 催化 活性 
的 蛋白 质 来 完成 这 一 作用 。 许 多 转录 因子 使 用 两 种 对 立 机 制 的 其 中 一 种 来 调控 转录 : OZ 
蛋白 乙酰 转移 酶 作用 一 一 组 蛋白 乙酰 化 ,从 而 削弱 了 DNA 与 组 蛋白 的 结合 ,使 得 DNA 更 容易 
转录 ,起 到 转录 上 调 的 效果 ; @) 组 蛋白 去 乙酰 化 酶 ( histone deacetylase, HDAC ) 作用 组 恒 
白 去 乙酰 化 ,从 而 加 强 了 DNA 与 组 蛋白 的 结合 ,使 得 更 少 的 DNA 暴 露 , 达 到 下 调转 录 的 目的 。 
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3. 为 转录 因子 DNA 复 合 物 招 募 共 激 活 子 或 共 抑 制 子 蛋白 质 ”在 生物 学 中 ,重要 的 进程 
大 多 具有 多 层 调控 的 性 质 。 转 录 因 子 也 具有 这 样 的 性 质 : 转录 因子 不 仅 能 通过 控制 转录 率 
来 调节 细胞 中 基因 产物 (RNA 和 蛋白质) 的 数量 ,而 且 转 录 因 子 自 身 也 受到 调控 作用 (通常 
被 其 他 转录 因子 调控 )。 下 面 将 对 转录 因子 调节 方式 及 活性 做 简短 的 概述 : 

( 1 ) 合 成 : 转录 因子 ( 像 所 有 蛋白质 一 样 ) 从 一 个 染色 体 上 的 基因 转录 成 RNA, 然 后 被 翻 
译 成 蛋白 质 。 调 控 这 些 步骤 中 的 任何 一 步 都 会 影响 转录 因子 的 产生 (以 及 活性 )。 这 里 存在 
一 个 有 趣 的 现象 , 即 转录 因子 可 以 被 自己 调控 。 例 如 ,在 一 个 负 反馈 环 中 ,转录 因子 作为 自 
己 的 抑制 子 : 如 果 转 录 因 子 蛋白 质 与 自身 基因 的 DNA 结 合 , 它 将 会 抑制 自身 的 产生 。 这 是 一 
类 在 细胞 中 转录 因子 能 够 维持 较 低 水 平 的 机 制 。 

(2 ) 核 定位 : 在 真 核 生 物 中 ,转录 因子 ( 像 大 多 数 蛋 白质 一 样 ) 在 细胞 核 中 转录 ,但 是 在 
细胞 质 中 翻译 。 许 多 在 细胞 核 中 具有 活性 的 蛋白 质 含 有 核定 位 信号 ,能 直接 定位 细胞 核 。 
但 是 ,对 许多 转录 因子 来 说 ,这 是 在 它们 调控 过 程 中 的 关键 。 几 类 重要 的 转录 因子 ,如 一 些 
核 受 体 转录 因子 在 细胞 质 中 必须 先 在 绑 定 一 个 配 体 ,才能 重新 定位 细胞 核 。 

(3 ) 激 活 : 转录 因子 可 以 通过 它们 的 信号 感应 区 域 激活 (或 失 活 ), 机 制 包括 : 

1) 配 体 的 结合 : 配 体 结合 不 仅 能 够 影响 转录 因子 在 细胞 内 的 位 置 ,也 可 以 影响 转录 因 
子 是 否 处 于 激活 的 状态 ,从 而 能 够 与 DNA 其 他 辅助 因子 结合 (例如 , 核 受 体 )。 

2 ) 磷酸 化 : 许多 转录 因子 ,如 STAT 和 蛋白 只 有 磷酸 化 后 才能 与 DNA 结 合 .与 其 他 转录 因子 
或 共 调 控 蛋 白 相 互 作用 (如 , 同 源 或 异 二 聚 体 )。 

4. 易 接近 DNA 绑 定位 点 ”在 真 核 生 物 中 , DNA 在 核 小 体 的 帮助 下 组 织 成 压缩 的 状态 ， 
其 中 约 147 个 DNA 碱 基 对 在 组 蛋白 八 聚 体 周围 绰 绕 两 圈 。 核 小 体内 部 的 DNA 无 法 与 转录 因 
子 接近 。 一 些 转录 因子 ,被 称 为 先锋 因子 ,仍然 能 够 与 核 小 体 DNA 的 DNA 绑 定位 点 结合 。 对 
大 多 数 其 他 转录 因子 来 说 , 核 小 体 必须 被 如 染色 质 重 塑 子 等 分 子 驱 动 零件 激活 转移 。 另 外 ， 
核 小 体 可 以 被 热 波动 部 分 解 开 , 使 得 转录 因子 结合 位 点 暂时 性 暴露 出 来 。 在 许多 情况 下 ,一 
个 转录 因子 与 DNA 绑 定位 点 的 结合 需要 与 其 他 转录 因子 .组 蛋白 或 非 组 蛋白 染色 质 蛋 白质 
进行 竞争 。 转 录 因 子 与 其 他 蛋白 的 组 合 在 调控 相同 的 基因 上 可 以 发 挥 相反 的 作用 (激活 与 
EH 38 )。 

5. 其 他 辅助 因子 /转录 因子 的 可 用 性 ”大 多 数 转录 因子 不 单独 工作 。 通 常情 况 下 ,为 了 
完成 基因 的 转录 ,一 系列 的 转录 因子 必须 与 DNA 调 控 序列 绑 定 。 这 种 转录 因子 的 集合 , 反 过 
来 ,招募 中 介 蛋 白质, 如 cofactor, 以 高 效 招募 前 起 始 复合 物 和 RNA 聚 合 酶 。 因 此 ,对 于 一 个 单 
一 的 转录 因子 起 始 转录 ,所 有 这 些 其 他 蛋白 质 也 必须 在 场 , 并 且 , 这 个 转录 因子 必须 处 于 一 
旦 需要 就 能 够 结合 到 这 些 和 蛋白质 的 状态 中 。 


(三 ) 转录 因子 的 功能 


转录 因子 是 这 样 一 组 蛋白 质 ,它们 阅读 和 诠释 DNA 中 的 遗传 “蓝图 ”。 它 们 与 DNA 结 合 ， 
并 帮助 启动 一 个 负责 基因 转录 增加 或 减少 的 程序 。 因 此 ,它们 对 许多 重要 的 细胞 过 程 来 说 
是 至 关 重 要 的 。 下 面 是 一 些 转录 因子 参与 的 重要 功能 和 生物 学 角色 : 

L 基础 转录 调控 ”在 真 核 生物 中 ,又 称 为 一 般 转 录 因 子 ( general transcription factors, 
GTFs ) 的 一 类 重要 的 转录 因子 ,它们 是 发 生 转 录 的 必要 条 件 。 这 些 GTFs 中 ,很 多 实际 上 都 
不 绑 定 DNA ,而 仅仅 作为 大 转录 前 初始 复合 物 的 一 部 分 ,与 RNA 聚 合 酶 直接 互 作 。 最 常见 的 
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GTFs 是 TF Il A, TF II B, TF II D, TF ILE, TFIF 和 TFI 了 有。 起 始 前 复合 物 与 其 调控 基因 上 游 的 
启动 子 区域 DNA 相 结合 。 

2. 转录 的 差异 性 增强 ”有 部 分 转录 因子 可 以 绑 定 邻 近 调 控 基 因 的 DNA 增 强 子 区 域 ,从 
而 差异 调控 各 种 基因 的 表达 。 对 保证 基因 在 适当 的 时 间 适当 的 细胞 适量 的 表达 以 适应 有 
机 体 不 断 变化 的 需求 ,这 些 转录 因子 起 到 了 至 关 重 要 的 作用 。 

3. 发 育 “在 多 细胞 生物 体内 ,许多 转录 因子 参与 到 发 育 的 过 程 中 。 这 些 转录 因子 调控 
相应 基因 的 表达 与 否 ,决定 细胞 的 分 化 、 细 胞 形态 或 活性 的 变化 。 以 Hox 转 录 因 子 家 族 为 例 ， 
对 于 有 机 物 (如 从 人 类 到 果 蝇 的 多 样 化 ) 正 确 的 体型 形成 十 分 重要 。 男 一 个 例子 是 由 性 别 决 
定 区 域 Y( SRY ) 基因 编码 的 转录 因子 ,在 决定 人 类 性 别 的 过 程 中 发 挥 了 重要 作用 。 

4. 细胞 信号 的 响应 ”通过 释放 一 种 可 以 产生 与 受 体 细胞 进行 信号 传导 的 分 子 , 使 细胞 
之 间 可 以 互相 沟通 。 如 果 这 个 信号 需要 上 调 或 下 调 受 体 细 胞 内 的 基因 表达 ,那么 转录 因子 
将 会 在 信号 级 联 的 下 游 出 现 。 肉 激素 信号 是 一 个 与 肉 激 素 受 体 转录 因子 有 关 的 相当 短 的 信 
号 级 联 的 例子 : 上 肉 激 素 由 组 织 (如 卵巢 和 胎盘 等 ) 分 泌 出 来 , 穿 过 受 体 细胞 的 细胞 膜 ,在 细胞 
质 中 与 肉 激 素 受 体 结合 。 接 着 , 峻 激素 受 体 进入 细胞 核 , 绑 定 到 DNA 绑 定位 点 ,改变 相关 基 
因 的 转录 调控 。 

5. 环境 应 答 转录 因子 不 仅 能 在 生物 刺激 有 关 的 信号 级 联 下 游 发 挥 作用 ,同时 ,它们 
也 能 参与 环境 刺激 的 信号 级 联 下 游 。 例 如 热 休克 因子 ( heat shock factor, HSF ), 它 可 以 上 调 
在 高 温 下 耐 受 的 必需 基因 ; 缺 氧 诱导 因子 ( hypoxia-inducible factor, HIF ), 它 能 够 上 调 在 低 
氧 环境 中 生存 的 必需 基因 ; 以 及 胆固醇 调节 元 件 结合 蛋白 ( sterol regulatory element binding 
protein, SREBP ), 它 能 有 助 于 维持 细胞 的 正常 血脂 水 平 。 

6. 细胞 周期 控制 ”许多 转录 因子 ,特别 是 一 些 原 瘤 基因 或 肿瘤 抑制 基因 ,有 助 于 调节 细 
胞 周期 和 决定 当 一 个 细胞 长 到 多 大 时 分 裂 成 两 个 子 细胞 。 以 致癌 基因 Myc 为 例 , 它 在 细胞 增 
长 和 凋 亡 过 程 中 有 重要 的 作用 。 

7. 发 病 机 制 ” 转 录 因 子 也 可 用 于 改变 宿主 细胞 的 基因 表达 ,促进 发 病 机 制 。 由 黄 单 胞 
菌 分 泌 的 类 似 转 录 激 活 子 的 作用 因子 (TAL effector ) 就 是 这 方面 一 个 被 广泛 研究 的 例子 。 
当 这些 蛋 白 被 注射 到 植物 中 ,它们 能 够 进入 植物 细胞 的 细胞 核 中 ,与 植物 启动 子 序列 结合 ， 
激活 帮助 细菌 感染 的 植物 基因 的 转录 。 


(四 ) 转录 因子 的 结构 


转录 因子 具有 模块 状 结构 (图 7-8 ), 包 含 如 下 结构 域 : 

DNA 结 合 结构 域 ( DNA-binding domain, DBD ), 与 被 调控 基因 相 邻 的 特定 DNA 序 列 ( 增 
强 子 或 启动 子 ) 相 结合 。 能 与 转录 因子 结合 的 DNA 序 列 通常 被 称 为 响应 元 件 。 

反 式 激活 结构 域 ( trans-activating domain, TAD ), 其 中 包含 其 他 蛋白质 (如 转录 共 调 控 
子 ) 的 结合 位 点 。 这 些 结合 位 点 通常 被 认为 具有 激活 功能 ( AFs )。 

一 个 可 选 的 信号 感应 结构 域 ( signal sensing domain, SSD ) (例如 ,一 个 配 体 结合 域 ), 它 
可 以 感应 外 部 信号 ,并 且 将 这 些 信 号 传导 到 其 余 的 转录 复合 物 ,导致 基因 表达 的 上 调 或 下 
调 。 此 外 , DBD 和 信和 号 感应 结构 域 可 以 存在 于 不 同 的 蛋白 质 中 ,在 转录 复合 物 中 相互 作用 ， 
完成 对 基因 表达 的 调控 。 
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图 7-8 转录 因子 的 模块 状 结构 
一 个 转录 因子 氨基 酸 序列 (NN 端 在 左 C 端 在 右 ) 示意 图。 包含 一 个 DNA 结 合 域 ( DBD ); 信号 感知 域 ( SSD ) 和 一 
个 反 式 激活 结构 域 ( TAD )。 在 不 同 转录 因子 中 这 些 结构 域 的 顺序 和 数量 是 不 同 的 。 另 外 , 反 式 激活 结构 域 
和 信号 感知 结构 域 的 功能 通常 包含 在 相同 的 结构 域 中 


二 、 转 录 因子 结合 位 点 的 高 通 量 试验 技术 >> 


(一 ) 染色 质 免疫 沉淀 芯片 (Chip 一 chip) 


该 技术 能 够 快速 在 目标 基因 组 的 染色 体 中 确定 特异 DNA 结 合 蛋 白 的 准确 结合 位 点 ， 
ChIP 芯 片 也 可 以 在 一 个 基因 组 的 任何 感 兴趣 的 区 域内 寻找 染色 体 的 结构 改变 。 

1. ChIP-chip 的 用 途 

(1 ) 在 基因 组 范围 内 确定 基因 转录 因子 的 DNA 结 合 位 点 和 其 他 DNA 结 合 蛋 白 或 蛋白 复 
合体 的 DNA 结 合 位 点 。 

(2 ) 染 色 体 活性 状态 的 定量 分 析 。 

(3 ) 组 蛋白 修饰 的 功能 研究 。 通 过 用 酰基 化 或 甲 基 化 的 组 蛋白 的 特异 抗体 和 没有 进行 
修饰 的 组 蛋白 的 特异 抗体 ,可 以 确定 与 组 蛋白 修饰 有 关 的 结合 模式 的 变化 。 

( 4) 聚合 酶 活性 的 定量 分 析 。 

(5 ) 精 炼 生物 信息 方法 ,用 功能 数据 来 确定 启动 子 的 位 置 。 

2. 具体 实验 原理 和 实验 步骤 如 图 7-9。 


"^ genomic DNA 
"= OE 





cross-link 
and shear 
— 
=  purify, 
ChIP-on-chip wet-lab portion of the workflow | ampli, 
\ and label 
\ 
3 b > 
fluorescence tag 


Sut 
9 





图 7-9 染色 质 免疫 沉淀 芯片 流程 图 
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3. GeneChip-TilingArrayT& AR fü] JP . 

AffymetrixZx F] T 20064E 1 H 24 A £t fi E H GeneChip( R ) ACRI RURA t H ( TilingAr- 
ray ) 系列 产品 。 该 系列 芯片 研究 范围 大 大 超出 已 知 编码 蛋白 序列 ,可 以 对 整个 人 类 和 小 鼠 
基因 组 进行 系统 的 研究 。 研 究 人 员 可 以 利用 这 一 芯片 对 转录 因子 和 其 他 蛋白 结合 结构 域 进 
行 研 究 。 最 近 , 更 有 研究 人 员 利 用 Affymetrix 的 租 合 芯片 在 过 去 认为 是 垃圾 DNA 的 区 域 中 间 
找到 了 许多 以 前 从 未 发 现 过 的 转录 活性 区 域 。 骸 合 芯 片 ( TilingArray ) 是 迄今 为 止 分 辩 率 最 
高 的 基因 芯片 类 型 ,其 探 针 设计 几乎 涵盖 了 目标 DNA 的 全 部 序列 。 迄 今 为 止 , Affymetrix 公 
司 已 经 开发 出 了 人 小 鼠 \ 酵母. 线虫. 拟 南 芥 等 模式 生物 的 全 基因 组 Tiling 芯 片 ,为 全 基因 组 
规模 上 研究 目的 蛋白 与 核酸 的 相互 作用 提供 了 强 有 力 的 分 析 工 具 。GeneChip-TilingArray 除 
了 全 基因 组 芯片 外 ,还 包括 了 专门 应 用 于 ChIP 一 chip 技 术 中 的 人 启动 子 和 小 鼠 启 动 子 两 款 
芯片 , 探 针 设计 履 盖 了 转录 起 始 位 点 附近 10kb 的 范围 ,可 针对 肿瘤 相关 的 1300 个 基因 ,覆盖 
范围 更 是 增加 到 了 12.5kb。 

1882 年 ,德国 细胞 学 家 弗 莱 明 首次 公开 发 表 了 细胞 有 丝 分 裂 现象 的 观察 结果 ,他 的 工作 
也 被 看 做 是 科学 史上 最 重要 的 发 现 之 一 。 除 了 对 有 丝 分 裂 进行 描绘 以 及 命名 之 外 , 弗 莱 明 
还 对 这 一 过 程 中 看 似 起 关键 作用 的 物质 一 一 染色 质 作 了 标记 。 

目前 , 它 是 生物 学 两 个 最 热门 领域 一 一 基因 组 学 和 蛋白 组 学 研究 关注 的 焦点 。 但 是 ， 
不 同 之 处 在 于 : 弗 莱 明 采 用 的 是 光学 显微镜 和 装 有 少量 茶 胺 染色 的 玻璃 瓶 对 其 进行 研究 ， 
而 最 新 的 基因 组 阶段 的 染色 质 研究 采用 的 是 尖端 的 技术 一 一 染色 质 免疫 沉淀 作用 测定 法 
(ChIP )。 

基因 组 学 和 蛋白 组 学 都 将 把 染色 质 作 为 研究 对 象 , 但 两 个 领域 采用 的 方法 各 异 。 在 基 
因 组 学 研究 中 ,人 研究 人 员 通 常 从 一 个 蛋白质 开始 研究 ,采用 ChIP 去 找 出 与 基因 组 关联 的 蛋白 
质 。 而 蛋白 组 学 研究 采用 的 是 反 向 方法 , 先 用 一 个 特殊 的 DNA 序 列 作为 寻找 蛋白 质 的 诱饵 ; 
然后 用 ChIP 去 证 实 : 那些 蛋白 质 就 是 在 体内 与 DNA 序 列 相 关联 的 蛋白 质 。 


(=) 染色 质 免疫 沉淀 -测序 (ChlP 一 Seq) 


ChIP-Seq, 即 染色 质 免疫 共 沉 淀 -测序 技术 ,是 通过 对 染色 质 免疫 共 沉 淀 ( ChIP ) 获得 的 
DNA 片 段 后 进行 大 规模 测序 ,从 而 得 到 目标 蛋白 结合 的 DNA 序 列 信息 ,并 定位 到 全 基因 组 
上 。 染 色 质 免疫 共 沉 演技 术 ( chromatin immunoprecipitation , ChIP ) 也 称 结合 位 点 分 析 法 ,是 
研究 体内 蛋白 质 与 DNA 相互 作用 的 有 力 工具 ,通常 用 于 转录 因子 结合 位 点 或 组 蛋白 特异 性 
修饰 位 点 的 研究 。 将 ChIP 与 第 二 代 测 序 技术 相 结 合 的 ChIP-Seq 技术 ,能 够 高 效 地 在 全 基 
因 组 范围 内 检测 与 组 蛋白 、 转 录 因 子 等 互 作 的 DNA 区 段 。 

ChIP-Seq 的 原理 是 : 首先 通过 染色 质 免疫 共 沉 淀 技术 ( ChIP ) 特异 性 地 富 集 目的 蛋白 
结合 的 DNA 片段 ,并 对 其 进行 纯化 与 文库 构建 ; 然后 对 富 集 得 到 的 DNA 片段 进行 高 通 量 测 
序 。 研 究 人 员 通 过 将 获得 的 数 百 万 条 序列 标签 精确 定位 到 基因 组 上 ,从 而 获得 全 基因 组 范 
FA SAA RAPS VER DNA 区 段 信 息 。 

1. ChIP-Seq 实 验 流 程 ( 以 Solexa 为 例 ) (图 7-10): 

(1 ) 测 序 : 对 客户 提供 的 ChIP 样品 (如 果 有 阴阳 参 启动 子 区 域 或 DNA. 序列 的 ) 进行 定 
量 检测 ,检测 合格 后 进行 测序 文库 构建 、 DNA WEC Cluster generation ) 扩 增 高 通 量 测序 。 

(2 ) 基本 数据 分 析 数 据 产 出 统计 : 对 测序 结果 进行 图 像 识别 ( Base calling ), 去 除 污染 及 
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接头 序列 ; 统计 结果 包括 : 测定 的 序列 ( Reads ) 长 度 、Reads 数量 数据 产量 。 

(3 ) 高 级 数据 分 析 ( 图 7-11 ): 标准 高 级 数据 分 析 内 容 包括 : ChIP-Seq 序列 与 参考 序列 
比 对 ; Peak calling : 统计 样品 Peak 信息 ( 峰 检 测 及 计数 平均 峰 长 度 、 峰 长 中 位 数 ); 统计 样 
án Uniquely mapped reads 在 基因 上 ,基因 间 区 的 分 布 情况 及 和 覆盖 深度 ; 给 出 每 个 样品 Peak 
关联 基因 列表 及 GO 功能 注释 ; 在 多 个 样品 间 , 对 与 Peak 关联 基因 做 差异 分 析 。 













“CHIP 富 集 的 AEB | .ouue | 
DNA 或 对 照 头 及 片段 长 | DNA 文 库 | 
度 选 择 | | 

| 


DNA 





图 7-10 ”ChIP 一 seq 实 验 流程 示意 图 


参考 基因 组 序列 


过 滤 接 头 ,将 Reads 比 对 到 参考 基因 组 序列 1 


ACHE LET EY Reads 


基因 组 未 知 Reads 


基因 GO 注释 





| ite f age 基因 GO 注释 及 信号 峰值 区 域 在 基因 组 上 位 置 分 布 | 确定 重复 区 域 中 峰值 分 布 
通路 预测 | j 


图 7-11 CHIP 一 seq 生 物 信息 分 析 流 程 示意 图 


2. ChIP-Seq 技 术 优 势 

(1 ) 高 通 量 : 一 个 lane 产 生 的 数据 几乎 可 以 涵盖 转录 因子 在 基因 组 上 的 全 部 结合 区 域 。 

(2 ) 低 成 本 : 单个 read 的 测序 和 分 析 费 用 仅 为 传统 测序 法 的 1/100 ; 只 有 全 基因 组 ChIP- 
chip 的 1/30 到 1/10。 

(3 ) 灵 活 度 高 : 任何 物种 任何 序列 都 可 进行 实验 ,无 需 已 知 的 基因 组 序列 信息 。 

(4 ) 高 可 信 度 : 比 ChIP-Chip 更 低 背 景 水 平和 高 信 噪 比 确保 高 可 信 度 的 实验 结果 。 

(5) 信 噪 比 高 : 背景 比 世 片 结 果 ( ChIP-chip ) 低 ,每 个 ChIP 样 本 可 获取 数 百 万 个 有 效 序 
列 标签 ,利用 数 百 万 次 计数 将 真实 事件 与 假 信号 区 分 开 。 

(6) 检 测 范围 广 : 在 整个 基因 组 内 定位 体内 结合 位 点 ,包括 芯片 无 法 检测 的 重复 序列 
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区 域 。 - 

(7 ) 定 位 精确 度 高 : ESO bp 以 内 定位 结合 位 点 。 

3. ChIP-Seq 应 用 领域 

由 于 ChIP-Seq 的 数据 是 DNA 测序 的 结果 ,为 研究 者 提供 了 进一步 深度 挖掘 生物 信息 
的 资源 ,研究 者 可 以 在 以 下 几 方 面 展开 研究 : 

( 1) 判断 DNA 链 的 某 一 特定 位 置 会 出 现 何 种 组 蛋白 修饰 。 

(2 ) 检 测 RNA polymerase 开 及 其 他 反 式 因子 在 基因 组 上 结合 位 点 的 精确 定位 。 

( 3) 研究 组 蛋白 共 价 修饰 与 基因 表达 的 关系 。 

( 4) CTCF 转录 因子 研究 。 


(=) ChIP—tiling 





ChIP-tiling}$ ChIPE AR 5 B iH (tiling array ) 相 结合 , 它 与 ChIP-chip 不 同 之 处 就 在 
于 所 采用 的 芯片 不 同 。 和 麦片 式 芯片 对 基因 组 的 覆盖 率 更 高 。ChIP-seq 将 ChIP 技 术 与 高 通 量 
的 测序 技术 相 结合 , ChIP 实 验 中 得 到 的 与 转录 因子 结合 和 未 结合 的 片段 可 以 直接 被 测序 。 
与 基于 生物 芯片 的 方法 比较 , ChIP-seq 有 如 下 优点 : Q@ 它 可 以 应 用 于 所 有 已 测序 的 基因 组 ， 
而 不 要 求 有 设计 好 的 普通 生物 芯片 或 羡 片 式 芯 片 ; @) 它 直接 通过 测序 确定 DNA 的 数量 ,从 而 
避免 了 了 DNA 序列 与 生物 芯片 杂 交 过 程 中 产生 的 噪音 ;，@ 它 测 出 的 转录 因子 结合 位 点 是 真 
正 无 偏 的 (测序 的 方法 可 以 覆盖 整个 基因 组 ,而 生物 芯片 的 方法 却 限于 被 选 入 制作 芯片 的 序 
列 集合 ); @ 它 的 灵敏 度 更 高 ,能 够 获得 结合 量 较 低 转录 因子 结合 位 点 。 同 时 , ChIP-seq 亦 有 
不 足 之 处 ,如 果 被 测序 的 片段 在 基因 组 多 次 重复 , 则 无 法 对 其 是 否 为 结合 位 点 做 出 推断 。 


三 、 转 录 因 子 结合 位 点 相关 数据 库 : TRANSFAC, JASPAR, 
SELEX DB 55: 





随 着 生物 实验 所 验证 的 转录 因子 结合 位 点 的 不 断 积累 ,目前 出 现 了 专门 收集 TFBS 相 
关 信 息 且 各 具 特 色 的 数据 库 , 详 见 表 7-10。TRANSFAC 是 真 核 生物 转录 调控 信息 的 数据 
库 , 包 含 转录 因子 ,转录 调控 关系 以 及 转录 因子 结合 位 点 等 相关 信息 ,涵盖 的 物种 有 酵母 、 
拟 南 芥 、 线 虫 . 果 蝇 、 大 鼠 . 小 鼠 、 人 等 。 它 通过 文献 挖掘 来 收集 数据 ,并 有 严格 的 质量 控制 。 
TRANSFAC 中 收录 的 TFBS 都 是 经 过 实验 验证 的 ,并 且 在 每 一 个 结合 位 点 的 条 目 中 都 标注 了 
相应 的 实验 技术 ,实验 条 件 并 对 该 TFBS 的 可 信 度 进行 了 评价 。TRANSFAC 中 不 仅 有 TFBS 的 
标注 ,还 提供 了 相应 转录 因子 与 靶 基 因 的 信息 ,如 物种 、 蛋 白质 一 级 序列 、 蛋 白质 功能 域 等 。 
TRANSFAC 11.3 中 , 共 收 集 了 10 018 个 转录 因子 ,以 及 20 431 个 转录 因子 结合 位 点 ,为 TFBS 预 
测算 法 提供 了 高 质量 的 训练 集 和 验证 集 。 


表 7-10 转录 因子 结合 位 点 数据 库 





数据 库 网 址 
TRANSFAC http: //www.gene-regulation.com 
JASPAR http: //jaspar.cgb.ki.se 


SELEX DB http: //wwwmgs.bionet.nsc.ru/mgs/systems/selex/ 
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续 表 
HTPSELEX http: //www.isrec.isb-sib.ch/htpselex/ 
PlantTFDB http: //planttfdb.cbi.pku.edu.cn 
AGRIS http: //arabidopsis.med.ohio-state.edu 
SCPD http: //rulai.cshl.edu/SCPD 
TRED http: //rulai.cshl.edu/(TRED 
ITFP http: //itfp.biosino.org/itfp 


JASPAR 收 录 了 多 细胞 真 核 生 物 转录 因子 结合 位 点 的 信息 ,并 以 矩阵 的 形式 保存 ,这 些 
和 矩阵 是 由 实验 验证 的 结合 位 点 统计 得 来 的 。JASPAR 包 括 3 个 子 库 , JASPAR CORE, JASPAR 
FAM, JASPAR PHYLOFACTS。 目 前 , JASPAR CORE 中 包含 123 个 频数 矩阵 ,和 抢 阵 中 的 元 素 
表示 某 个 位 置 上 出 现 某 个 碱 基 的 频数 , JASPAR FAM 中 将 转录 因子 按 其 DNA 结 合 域 的 结构 
特性 分 成 若干 家 族 , 并 提供 了 11 个 “家 族 共 有 ”的 TFBS 的 位 置 权重 和 矩阵 ,为 从 结构 角度 进行 
TFBS 研 究 提 供 了 方便 , JASPAR PHYLOFACTS 中 包含 174 个 从 在 进化 上 保守 的 基因 上 游 元 件 
中 提取 的 频数 矩阵。 值得 一 提 的 是 ,与 商业 数据 库 TRANSFAC 不 同 , JASPAR 是 完全 开放 的 
资源 , JASPAR 与 TRANSFAC 的 另 一 个 主要 区 别 是 , JASPAR 中 含有 的 TFBS 信 息 是 非 宛 余 的 ， 
即 一 个 转录 因子 对 应 至 多 一 个 TFBS 条 目 。 

SELEX_DB 和 HTPSELEX 中 收集 了 经 SELEX 实 验 验 证 的 TFBS 信 息 。 它 们 不 同 于 综合 型 
的 数据 库 ,除了 实验 验证 的 结合 位 点 信息 ,还 尽 可 能 详尽 的 提供 了 实验 中 间 产 物 。 此 类 数据 
库 包 含 的 TFBS 相 对 较 少 ,但 针对 每 一 个 TFBS 提 供 了 更 为 丰富 的 实验 信息 ,这 为 致力 于 建立 
更 精准 TFBS 模 型 的 研究 者 提供 了 宝贵 的 数据 。 

另外 ,还 有 一 些 收集 特定 物种 转录 因子 以 及 TFBS 信 息 的 数据 库 : ”PlantTFDB 中 包含 22 
种 植物 中 的 26 402 个 转录 因子 的 信息 ,AGRIS 中 包含 了 模式 生物 拟 南 芥 的 转录 因子 及 其 结合 
位 点 的 信息 , SCPD 是 收集 酵母 启动 子 区 域 序列 的 数据 库 , 里 面包 含 转录 起 始 位 点 以 及 转录 
因子 结合 位 点 的 注释 , TRED 是 收集 哺乳 动物 转录 调控 元 件 的 数据 库 , 对 人 、 小 鼠 、 大 鼠 等 物 
种 的 启动 子 区 域 有 相对 完整 的 注释 , ITFP 中 收集 了 哺乳 动物 的 转录 因子 与 靶 基 因 之 间 的 调 
控 关 系 信息 。 


四 、 转 录 因子 结合 位 点 模型 的 建立 及 分 析 》》 


最 基本 的 TFBS 模 型 是 一 致 性 序列 , 即 对 结合 位 点 中 每 个 位 置 选择 一 个 最 可 能 出 
现 的 核 背 酸 组 成 一 个 序列 来 表达 TFBS。 比 如 某 个 转录 因子 有 5 个 结合 位 点 TACGAT、 
TATAAT、GATACT、TATAGA、TATGTT, 那 么 它 的 一 致 性 序列 就 是 TATAAT。 这 样 的 表 
达 方 式 既 牺牲 了 特异 性 ,也 丢失 了 敏感 性 。 描 述 TFBS 的 一 个 常用 模型 是 位 置 权 重 和 矩阵 
模型 ( position weight matrix, PWM )。 如 果 TFBS 长 度 为 L,PWM 就 是 一 个 4 行 L 列 的 和 矩阵， 
这 个 矩阵 中 每 行 对 应 着 一 种 核 背 酸 ,每 列 对 应 着 TFBS 中 的 一 个 位 置 ,第 i 行 第 j 列 的 元 素 
是 TFBS 中 第 j 位 上 出 现 核 背 酸 ;ji 的 概率 。 一 个 长 度 为 上 的 序列 与 该 转录 因子 结合 的 概率 即 
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为 各 个 位 置 上 核 苷 酸 对 应 概率 的 乘积 。 某 段 序列 与 转录 因子 结合 的 概率 越 大 ,就 说 明 
它 与 转录 因子 相 结合 的 结合 能 力 越 强 。 这 个 模型 有 两 个 局 限 : 一 是 该 模型 中 TFBS 的 长 
度 是 固定 不 变 的 ; 二 是 该 模型 假定 TFBS 不 同位 置 间 相 互 独立 ,每 个 核 昔 酸 对 转录 因子 与 
DNA 序 列 的 结合 能 贡献 是 独立 的 , 即 所 谓 的 可 加 性 假设 。Benos 等 的 分 析 表 明 ,虽然 可 
加 性 假设 并 不 总 是 成 立 , PWM 模型 并 不 完美 ,但 它 仍然 是 对 TFBS 结 合 能 力 的 一 个 较 好 
的 近似 。 

近年 来 ,有 很 多 研究 者 从 实验 和 计算 的 角度 对 “可 加 性 假设 ”是 否 成 立 的 问题 进行 讨论 ， 
他 们 的 研究 都 表明 , 某 些 TFBS 上 的 不 同位 置 的 核 昔 酸 之 间 表 现 出 明显 的 相关 性 。 为 了 增强 
模型 的 预测 能 力 ,研究 者 尝试 放宽 可 加 性 假设 ,提出 包含 相关 性 的 模型 来 描述 TFBS。Barash 
等 提出 用 贝 叶 斯 网 络 模 型 来 描述 TFBS, Zhou 等 将 PWM 加 以 扩展 ,提出 了 广义 位 置 权重 矩阵 
( generalized position weight matrix, GPWM ), 该 模型 考虑 了 互 不 重合 的 任意 两 个 位 置 间 的 相 
关 性 ,他 们 发 现 大 约 25% 已 知 TFBS 有 比较 强 的 位 置 相关 性 ,而 应 用 新 模型 CPWM 后 ,大约 有 
80% 的 TFBS 预 测 识别 率 会 有 所 提高 , Gunewardena 等 提出 MonoDi-Nucleotide 模 型 ,该 模型 假设 
TFBS 上 的 任意 一 个 核 背 酸 ,或 者 是 独立 于 其 他 核 苷 酸 ,单独 贡献 结合 能 ,或 者 是 与 相 邻 的 一 
个 核 昔 酸 相互 作用 共同 贡献 结合 能 ,并 采用 动态 规划 算法 进行 优化 , 选 出 TFBS 中 有 相互 作用 
的 相 邻 核 苷 酸 对 , Sharon 等 提出 了 “特征 模块 模型 ”( feature motif model, FMM )。FMM 本 质 上 
说 是 一 个 对 数 线性 模型 ( log-linear model ), 它 假设 一 段 DNA 序 列 是 TFBS 的 概率 的 对 数 与 这 段 
序列 “特征 ”的 加 权 和 成 正比 。 该 模型 中 的 “特征 ” 指 的 是 将 TFBS 序 列 映射 为 数值 的 函数 ， 
此 特征 可 能 与 一 个 核 背 酸 有 关 , 也 可 能 多 个 核 背 酸 有 关 , 因 此 能 够 描述 不 同位 置 上 核 苷 酸 间 
的 相关 性 。 特 征 定 义 的 灵活 性 使 得 FMM 模 型 可 以 措 述 任意 多 个 位 置 上 核 苷 酸 间 的 相关 性 ， 
为 了 避免 引入 与 结合 能 无 关 的 特征 ,在 参数 估计 的 同时 进行 变量 选择 ,从 而 避免 过 度 拟 合 。 

相对 于 PWM ,这 些 模型 在 不 同 程度 上 人 允许 了 TFBS 不 同位 置 上 核 彰 酸 间 的 相关 性 ,但 也 
对 相关 性 有 一 定 的 限制 ,如 贝 叶 斯 网 络 有 “无 环 假设 ", GPWM 仅 考虑 了 任意 两 个 位 置 上 核 
苷 酸 间 的 相关 性 ,而 MonoDi-Nucleotide 模 型 只 考虑 了 相 邻 的 两 个 位 置 上 核 苷 酸 间 的 相关 性 。 
虽然 ,从 理论 上 说 FMM 可 以 描述 任意 的 相关 性 ,但 在 应 用 中 仍 受 到 样本 量 的 限制 ,实际 上 作 
者 也 只 考虑 了 可 以 由 两 个 核 苷 酸 决 定 的 特征 。 事 实 上 ,在 样本 量 有 限 的 情况 下 ,模型 描述 的 
相关 性 越 复杂 , 它 的 表达 能 力 就 越 强 ,但 引入 的 参数 也 就 越 多 , 越 容 易 造成 过 度 拟 合 的 现象 ， 
影响 模型 的 稳健 性 和 预测 能 力 。 上 面 提 到 的 模型 都 在 对 PWM 模型 有 所 改进 的 情况 下 ,在 模 
型 表达 能 力 和 稳健 性 之 间作 了 不 同 程度 的 折 中 。 





五 .利用 从 头 预 测算 法 识别 转录 因子 结合 位 点 >> 


de novo 预 测算 法 的 基本 人 逻辑 是 ,以 一 组 共 调 控 的 基因 作为 输入 ,用 计算 方法 搜索 在 
这 些 基因 的 上 游 调控 序列 中 富 集 的 motif。 此 类 算法 有 很 多 ,如 基于 EM 算法 的 MEME, 基 
于 贪 焚 算法 的 Consensus, 基于“ 词 穷 举 法 ”(word enumeration ) 的 Seeder, 基于 吉 布 斯 抽 
样 ( Gibbs Sampler ) 的 AlignACE、MotifSampler、BioProspector 等 等 ,详细 的 在 线 资源 列表 
见 表 7-11。 在 多 种 软件 并 存 的 情况 下 ,它们 之 间 预 测 准 确 率 的 比较 成 为 研究 者 关心 的 
问题 。 然 而 ,由 于 对 转录 调 探 过程、 转录 因子 与 DNA 结 合 过 程 缺 乏 透 彻 的 了 解 ,缺乏 标 
准 数据 ,缺乏 合适 的 评价 标准 ,这 个 问题 并 不 容易 回答 。2005 年 , Tompa 等 对 13 种 de novo 
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预测 软件 进行 了 系统 的 评测 。 他 们 从 TRANSFAC 中 提取 TFBS 信 息 构 建 正 负 样 本 集 , 应 
用 这 些 软件 做 TFBS 预 测 ,并 提出 多 种 指标 (从 单个 核 背 酸 , TFBS 整 体 两 个 不 同 的 层次 衡 
量 预测 算法 的 敏感 度 等 ) 来 评测 算法 的 表现 。 他 们 的 分 析 表 明 : 各 种 软件 之 间 没 有 绝对 
的 优 劣 ,软件 的 绝对 检测 效果 都 不 是 太 高 。 在 Tompa 的 标准 下 (如 果 预 测 出 的 TFBS 与 真 
TFBS 有 重 释 ,并 且 重 至 的 长 度 超过 真 TFBS 长 度 的 1/4, 就 认为 预测 是 准确 的 ),13 个 软件 
中 最 高 的 灵敏 度 ( Sensitivity ) 为 0.22。 另 外 ,不 同 软件 的 预测 效果 对 不 同 的 数据 集 、. 不 同 
的 物种 有 明显 的 偏好 性 ,而 且 大 部 分 软件 在 酵母 数据 上 的 效果 明显 高 于 其 他 物种 ,这 与 
TRANSFAC 中 酵母 数据 的 相对 丰富 是 分 不 开 的 ,如 果 人 允许 软件 同时 预测 出 两 个 motif, 预 
测 的 准确 率 有 可 能 得 到 提高 。 最 近 Wijaya 等 开发 的 MotifVoter 通 过 综合 不 同 预测 算法 的 
结果 进行 预测 。 在 Tompa 等 构造 的 测试 集 上 , MotifVoter 的 敏感 度 比 单个 的 预测 算法 提 
高 了 275%。 





#7-11 de novo 预 测 TFBS 的 软件 


”软件 名 称 : Bub 

MEME http: //meme.sdsc.edu/ 

Consensus http: //bifrost.wustl.edu/consensus 

Seeder http: //www.cpan.org 

AlignACE http: //atlas.med.harvard.edu/ 

MotifSampler http: //www.esat.kuleuven.ac.be/-dna/Biol/Software.html 
BioProspector http: //ai.stanford.edu/~xsliu/BioProsputor/ 

MotifVoter http: //www.comp.nus.edu.sg/-bioinfo/MotifVoter 


另外 ,考虑 到 转录 过 程 是 由 多 个 转录 因子 组 合 调控 的 , Zhou 等 提出 了 CisModule 算 法 
来 预测 多 个 TFBS 构 成 的 模块 。 在 模拟 数据 集 以 及 真实 数据 上 , CisModule 都 能 准确 的 预 
测 出 TFBS 模 块 ,而 且 对 单独 的 TFBS 的 敏感 度 也 优 于 普通 的 de novo 预 测算 法 (在 与 果 蝇 早 
期 发 育 相 关 的 基因 构成 的 数据 集 上 , CisModule R fi BE 35 $5692 ,而 MEME 在 相同 的 数据 集 
上 的 灵敏 度 仅 为 9% ), 这 说 明 利 用 多 个 转录 因子 的 合作 信息 能 够 提高 预测 的 准确 性 。 关 
于 整合 组 合 调控 信息 预测 TFBS 的 相关 算法 , Hannenhalli 在 最 近 的 一 篇 综述 中 有 更 详细 的 
介绍 。 

de novo 预 测算 法 有 局 限 性 , 它 依赖 于 预先 构建 的 共 调 控 的 基因 集合 。 这 个 基因 集合 的 
构建 通常 来 自 于 基因 功能 的 分 析 , 比 如 生物 芯片 的 表达 数据 , ChIP-chip 实 验 等 。 在 很 多 情 
况 下 ,这 些 功能 信息 是 不 易 获 得 的 ; 另外 ,对 “ 共 调 控 ” 信 息 的 依赖 ,也 使 得 de novo 检 测算 法 
局 限于 对 单 物 种 的 分 析 。 


六 、 结 合 Chip-seq 等 高 通 量 实验 数据 的 转录 因子 结合 位 点 预测 
方法 》》 


随 着 基因 芯片 等 高 通 量 数据 的 出 现 ,计算 方法 在 转录 因子 结合 位 点 的 分 析 中 得 到 了 广 
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泛 的 应 用 。 对 转录 因子 结合 位 点 的 计算 研究 可 分 为 两 类 问题 ; 第 一 类 问题 是 通过 收集 可 能 
被 同一 转录 因子 调控 的 基因 启动 子 序列 ,在 其 中 寻找 具有 统计 显著 性 的 短片 段 , 作 为 转录 因 
子 可 能 的 结合 位 点 ; 第 二 类 问题 是 根据 若干 已 知 的 转录 因子 结合 位 点 的 模 体 ,在 所 研究 基因 
的 启动 子 区 域内 搜索 相应 转录 因子 可 能 的 结合 位 点 。 

一 张 基因 芯片 (microarray ) 可 以 同时 检测 数 万 个 基因 在 某 个 组 织 样本 中 的 表达 值 , 对 
在 不 同 条 件 下 获得 的 基因 芯片 数据 进行 聚 类 分 析 ,我 们 可 以 得 到 一 组 或 几 组 有 相似 表达 
模式 的 基因 。 它 们 在 特定 的 组 织 ,或 者 特定 发 育 阶段 被 同时 激活 或 同时 抑制 。 由 此 推断 ， 
这 些 基因 很 可 能 受到 共同 转录 因子 的 调控 。 相 同 的 转录 因子 在 这 些 基 因 启 动 子 区域 上 的 
结合 位 点 应 当 是 相同 或 者 相似 的 。 通 过 计算 方法 寻找 这 些 相似 的 转录 因子 结合 位 点 ( 模 
体 ), 称 为 转录 因子 结合 位 点 的 识别 。 把 输入 启动 子 序列 看 作 一 些 杂 乱 无 章 的 背景 噪声 ， 
模 体 可 以 看 作 隐 藏 在 背景 噪声 中 的 有 规律 的 信号 。 通 过 计算 方法 ,我 们 希望 找到 那些 出 
现 次 数 明显 高 于 其 他 背景 噪声 的 信号 。 这 里 我 们 需要 注意 两 点 ,第 一 是 我 们 需要 一 组 可 
能 含有 共同 调控 元 件 的 序列 ,从 中 发 现 某 种 频繁 出 现 的 “信号 ”, 不 可 能 只 从 一 个 序列 中 
找到 模 体 ; 第 二 是 输入 序列 中 的 “信号 ”要 足够 强 , 可 以 同 背 景 噪声 区 分 。 这 样 一 组 共 调 
控 的 基因 除了 可 以 通过 对 基因 芯片 数据 进行 分 析 得 到 ,也 可 以 通过 对 已 有 知识 进行 总 结 
得 到 。 比 如 处 于 同一 个 通路 ( pathway ) 上 的 功能 相关 的 基因 也 可 能 被 同一 转录 因子 调控 。 
找到 一 组 共 调 控 的 基因 之 后 ,首先 遇 到 的 一 个 问题 就 是 如 何 确定 基因 的 启动 子 区 。 一 般 
认为 ,转录 因子 结合 位 点 主要 在 转录 起 始 位 点 ( transcription start sites, TSSs ) 附近 出 现 , 但 
还 有 一 些 转录 因子 结合 在 基因 上 游 很 远 的 区 域 ( 被 称 为 远程 作用 )。 根 据 研究 问题 的 不 同 ， 
启动 子 序 列 的 长 度 可 以 取 几 百 到 几 千 个 碱 基 不 等 ,通常 选取 转录 起 始 位 点 附近 1000~2000 
个 碱 基 的 长 度 作为 启动 子 区 (例如 ,转录 起 始 位 点 上 游 1000 和 下 游 200 个 碱 基 )。 序 列 太 
短 会 丢失 部 分 结合 位 点 。 如 果 序 列 取 的 过 长 ,在 包含 了 少量 真实 结合 位 点 的 同时 , 却 引 入 
了 大 量 的 背景 噪声 ,使 真正 的 转录 因子 结合 位 点 淹没 在 噪声 中 无 法 区 分 。 近 年 来 , ChIP- 
chip 和 ChIP-seq 技术 在 转录 因子 结合 位 点 的 分 析 中 得 到 了 广泛 应 用 。 与 由 基因 芯片 和 功 
能 相关 获得 的 包含 共同 转录 因子 结合 位 点 的 启动 子 序 列 相 比 , ChIP-chip 和 ChIP-seq 确 
定 的 包含 共同 结合 位 点 的 区 域 更 加 准确 。 得 到 一 组 含有 共同 结合 位 点 的 候选 启动 子 序列 
后 ,就 可 以 利用 已 有 的 计算 方法 进行 结合 位 点 的 识别 ,然后 对 结果 进行 后 续 处 理 并 解释 它 
们 的 生物 意义 。 在 这 里 候选 序列 集合 起 到 了 “训练 集 ” 的 作用 , 它 的 选取 对 后 续 分 析 结 果 
的 影响 非常 大 ,应 尽量 选择 包含 信号 可 能 性 大 的 序列 ,序列 的 数目 以 数 十 到 数 百 条 为 宜 ， 
如 果 序 列 过 少 ,可 以 考虑 加 入 较 近 的 直系 同 源 序列 。 图 7-12 所 示 为 转录 结合 位 点 识别 的 
完整 流程 。 
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| 


TCTCTCTOC wC GC TAATT ACIGTUSTCA POHA P AGA ATUM A, AA ATTIC ATGOAGAAASGATIOAGAC ATOM ANCAT AF 










CACATOCAADCAATCACCE ac OGTT AMOFI TECA TTTPCTTT ORC A NAN AAG AT AAARAAT ATTTTTT 


ATTGATTGACTC ATTTTOCOCTOACT ACT AOCAGT IC ASAATUTT AGAR AASATNOCAAA AC AGAR SAAATARATA 


eCAT... -Q C sse 
GCAT ERR A k iss 


SCAT.. GC sn 


GL oss 







图 7-12 模 体 (motif) 基本 分 析 流 程 示意 图 
来 源 自 LI Ting-ting, JIANG Bo, WANG Xiao—wo, et.al., tutorial for computational analysis of 
transcription factor binding sites, acta biophysica sinica, 2008.24 : 334-347. 
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第 四 节 
可 变 剪 接 的 生物 信息 学 研究 





Section 4 Bioinformatics Analysis on Alternative Splicing 


一 、 可 变 剪 接 的 调控 机 制 》》 


可 变 剪 接 是 指 从 一 个 mRNA 前 体 中 通过 不 同 的 剪接 方式 (选择 不 同 的 剪接 位 点 组 合 ) 产 
生 不 同 的 mRNA 剪接 异 构 体 的 过 程 。 可 变 剪 接 是 调节 基因 表达 和 产生 和 蛋白质 组 多 样 性 的 重 
要 机 制 。 剪 接 过 程 受 多 种 顺 式 作用 序列 和 反 式 作用 因子 相互 作用 调节 。 包 括 SR 和 hnRNP 
家 族 蛋 白 在 内 的 多 种 剪接 因子 参与 这 一 调节 过 程 。 转 录 机 器 ( machine ) 也 参与 可 变 剪 接 的 
调节 。 

(一 ) 可 变 剪 接 与 蛋白 质 组 多 样 性 


据 预测 ,人 类 基因 组 可 能 有 约 35 000 个 基因 , 果 蝇 约 14 000 个 ,而 简单 的 模式 生物 线虫 
2419 000 个 基因 。 生 物 的 复杂 性 与 其 基因 组 基因 数量 似乎 存在 明显 差异 ,原因 在 蛋白 质 组 。 
基因 重 排 `_RNA 编 辑 和 可 变 剪接 等 机 制 可 以 从 一 个 基因 产生 多 种 蛋白 ,从 而 使 蛋白 质 组 中 和 蛋 
白质 的 数量 超过 基因 组 中 基因 的 数量 。 其 中 ,从 影响 的 基因 数量 和 生物 种 类 范围 来 看 ,可 变 
剪接 是 扩大 蛋白 质 多 样 性 的 最 重要 的 机 制 。 


(=) 可 变 剪接 的 频率 


1. 5%。 从 1977 年 Walter Gilbert 提 出 可 变 剪 接 概 念 ,1980 年 Baltimore 在 小 鼠 IgM 基 因 发 现 
第 一 个 可 变 剪接 产生 膜 型 .分泌 型 IgM ,至 2001 年 ,用 经 典 分 子 生物 学 实验 的 方法 研究 ,一共 
仅 发 现 了 数 百 种 有 可 变 剪接 的 基因 。 并 推测 在 高 级 真 核 细 胞 生物 约 5% 的 基因 有 可 变 剪接 。 

2. 35%~60%。 高 通 量 的 基因 组 测序 和 EST 测 序 ,使 得 生物 信息 学 的 方法 研究 可 变 剪接 
成 为 可 能 。EST 来 源 于 完全 加 工 的 mRNA ,它们 提供 了 一 个 广泛 的 mRNA 多 样 性 的 样品 库 。 
这 种 多 样 性 可 以 用 计算 机 分 析 。 最 近 两 年 ,多 个 研究 小 组 通过 不 同 的 生物 信息 学 的 方法 ， 
从 整个 人 基因 组 的 水 平 进行 分 析 , 结 果 一 致 显示 约 33%~60% 的 人 基因 有 可 变 剪 接 形式 。 而 
且 , 由 于 对 大 多 数 基因 来 说 ,每 个 基因 只 测 到 了 很 少 几 个 EST 甚 至 没有 EST; EST 不 是 全 长 的 
mRNA ,多 位 于 mRNA 的 5” 和 3” 端 ; EST 来 源 于 有 限 的 组 织 和 发 育 阶段 ; 很 有 可 能 存在 有 更 
多 的 可 变 剪 接 而 在 现在 的 EST 库 中 没有 显示 。 因 此 实际 可 变 剪 接 的 频率 可 能 比 预测 的 更 高 。 
这 还 有 待 于 建立 新 的 高 通 量 的 分 子 生物 学 方法 ,如 生物 芯片 的 方法 ,以 进一步 实验 验证 。 
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(=) 单个 基因 可 变 剪 接 产生 的 多 样 性 


一 个 基因 可 以 通过 如 下 几 种 方式 产生 多 个 转录 体 , 如 不 同 的 转录 起 始 位 点 ,可 变 前 接 ， 
选择 不 同 的 加 尾 信号 位 点 , RNA 编 辑 等 。 可 变 剪 接 包括 3 种 类 型 : @) 内 含 子 的 保留 ; @ 可 变 
外 显 子 的 保留 或 切除 ; 33” 和 5 ”剪接 位 点 的 转移 ( shift ) 导致 外 显 子 的 增长 或 缩短 。 可 变 剪 
接 对 和 蛋白质 结构 的 影响 也 是 多 样 性 的 ,如 多 肽 链 中 一 个 到 数 百 个 氨基 酸 的 增加 或 减少 ; 某 功 
能 域 的 有 无 ; 如 果 可 变 剪 接 使 读 码 框架 改变 , 则 可 能 无 法 有 效 翻 译 , mRNA 被 监视 系统 降解 。 

单独 一 个 基因 通过 可 变 剪 接 产生 的 十 几 种 剪接 异 构 体 的 现象 很 常见 。 有 些 基因 甚至 
能 够 产生 成 千 上 万 种 剪接 异 构 体 。 最 突出 的 例子 是 果 蝇 ( Drosophila melanogaster ) 的 Dscam 
基因 ,可 以 通过 可 变 剪接 产生 38 000 多 种 mRNA 异 构 体 。Dscam 基 因 编 码 一 个 神经 元 轴 突 
定向 受 体 , 它 细胞 外 有 一 个 由 10 个 免疫 球 蛋 白 重 复 序列 组 成 的 结构 域 , 第 2,3,7 个 免疫 球 蛋 
白 重 复 序列 分 别 由 第 4,6,9 号 外 显 子 编码 ,4 号 外 显 子 盒 ( cassette ) 有 12 个 变异 体 ,6 号 外 显 
子 有 48 个 变异 体 ,9 号 外 显 子 有 33 个 变异 体 , 再 加 上 17 号 外 显 子 的 2 个 变异 体 。 每 个 成 熟 的 
Dscam mRNA 分 别 只 有 一 个 有 4,6,9,17 号 外 显 子 的 变异 体 ,由 此 理论 推测 Dscam 基因 共有 
12x48x33x2=38 016 种 剪接 异 构 体 。 对 Dscam 基 因 50 个 cDNA 克隆 随机 测序 发 现 了 49 种 
不 同 的 剪接 异 构 体 ,说 明 实 际 存在 的 剪接 异 构 体 即使 没有 理论 那么 多 ,也 至 少 有 上 二 种 。 人 
的 Neurexins, n-Cadherins , calcium-activated potassium channels 等 基因 也 有 类 似 的 高 度 多 样 
的 剪接 异 构 体 。 

上 述 现 象 非常 类 似 于 淋巴 细胞 TCR 或 免疫 球 和 蛋白 的 胚 系 基因 重 排 ,不 同 之 处 在 于 后 者 
发 生 在 DNA 水 平 ,前 者 发 生 在 RNA 水 平 。 基 因 重 排 产生 的 高 度 多 样 抗原 受 体 库 可 以 识别 高 
度 复 杂 的 自身 和 异己 抗原。 而 Dscam 基 因 的 转录 异 构 体 可 能 有 神经 系统 的 发 育 有 关 。 神 经 
元 的 定向 迁移 和 相互 连接 可 能 是 发 育 过 程 中 最 复杂 的 事件 。 果 蝇 约 有 25 000 个 神经 元 ,要 
使 它们 生长 的 轴 突 准确 地 、 可 重复 地 到 达 目 的 ,使 这 些 神经 元 准确 地 连接 在 一 起 ,必然 需要 
一 个 特殊 的 系统 。Dscam 基 因 的 38 000 多 种 mRNA 异 构 体 ,每 个 异 构 体 各 编码 一 个 不 同 的 受 
体 ,每 个 受 体 具有 识别 不 同 分 子 定向 信号 的 潜能 ,从 而 有 能 力 指 导 各 个 生长 的 轴 突 到 达 准 确 
的 位 置 。 

如 果 将 可 变 剪接 与 其 他 RNA 加 工 过 程 (如 RNA 编 辑 ) 联系 起 来 共同 考虑 ,基因 产物 会 更 
复杂 。 例 如 , 果 蝇 的 para 基 因 ( voltage-gated action potential sodium channel ) 有 13 个 可 变 外 显 
子 , 可 编码 1536 种 不 同 的 mRNA ,另外 , para 的 转录 体 还 要 经 过 在 11 个 已 知 位 点 的 RNA 编 辑 ， 
这 样 理 论 上 一 共 可 以 产生 1 032 192 个 不 同 的 para 转 录 异 构 体 。 

根据 受 可 变 剪接 影响 的 基因 的 概率 ,以 及 单个 基因 可 能 产生 的 可 变 剪接 体 的 数目 ,足以 
表明 可 变 剪 接 对 蛋白质 组 多 样 性 的 巨大 影响 。 


(四 ) 可 变 剪接 的 功能 和 生物 学 意义 


1. 可 变 剪 接 是 在 RNA 水 平 调控 基因 表达 的 机 制 之 一 ”一 个 基因 通过 可 变 剪 接 产生 多 个 
转录 异 构 体 ,各 个 不 同 的 转录 异 构 体 编码 结构 和 功能 不 同 的 蛋白 质 , 它 们 分 别 在 细胞 /个 体 
分 化 发 育 不 同 阶段 ,在 不 同 的 组 织 ,有 各 自 特 异 的 表达 和 功能 。 因 此 ,可 变 剪接 是 一 种 在 转 
录 后 RNA 水 平 调控 基因 表达 的 重要 机 制 。 

目前 已 知 的 可 变 剪接 异 构 体 中 ,只 有 一 小 部 分 明确 确定 了 功能 和 生物 学 意义 。 第 一 个 
确定 的 可 变 剪 接 异 构 体 功能 是 IgM 基因 ,其 末端 最 后 两 个 外 显 子 的 可 变 剪 接 ,决定 了 所 编码 
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的 膜 型 /分 泌 型 [gM 的 产生 。 最 著名 的 例子 是 果 蝇 性 别 决定 系统 ,在 此 系统 中 ,至 少 5 个 基因 
(sxl, tra, msl2, dsx, fru ) 转 录 体 的 可 变 剪接 级 联 反应 最 终 决定 了 果 蝇 雄性 和 雌性 性 别 特征 
的 表达 。 有 些 基因 ,可 变 剪接 造成 的 蛋白 质 异 构 体 之 间 功 能 上 的 差异 没有 被 实验 检测 出 来 。 
不 过 阴性 的 结果 不 能 代表 没有 功能 差异 ,只 是 目前 没有 检测 出 来 而 已 。 也 有 很 多 异 构 体 造 
成 读 码 框架 改变 ,不 能 被 翻译 为 蛋白 质 , 而 是 直接 被 降解 了 。 真 核 生 物 也 有 mRNA 监视 系统 
NMD(nonsense-mediated degradation ), 检 测 mRNA 中 异常 提前 出 现 的 终止 密码 子 ,一 经 发 现 ， 
立即 降解 异常 的 mRNA ,防止 其 翻译 。 在 大 多 数 情 况 下 ,检测 可 变 剪接 造成 的 和 蛋白质 异 构 体 
之 间 功 能 上 的 差异 的 实验 还 没有 开展 。 最 近 发 展 的 RNAi 技 术 , 可 以 适应 高 通 量 的 从 功能 基 
因 组 水 平 研究 各 基因 可 变 剪接 异 构 体 的 功能 的 要 求 。2000 年 已 经 有 人 将 RNAi 技 术 应 用 于 模 
式 生 物 线虫 的 可 变 剪接 异 构 体 的 大 规模 研究 上 (目前 已 经 大 量 开 始 用 于 哺乳 动物 系统 )。 

2. 多 样 性 与 复杂 性 ”可 变 剪接 是 从 相对 简单 的 基因 组 提高 蛋白 质 组 多 样 性 的 重要 机 
制 ,蛋白 质 组 的 多 样 性 与 多 细胞 高 等 生物 的 复杂 性 相 适 应 。 从 可 变 剪接 涉及 的 基因 分 布 格 
局 分 析 , 可 变 剪 接 多 发 生 在 参与 信号 传导 和 表达 调节 等 复杂 过 程 的 基因 上 ,如 受 体 、 信 和 号 传 
导 通 路 (将 亡 )、 转 录 因 子 等 。 对 个 体 分 化 发 育 和 一 些 关 键 的 细胞 生理 过 程 如 凋 亡 、 细 胞 兴奋 
等 的 精确 调控 有 重要 意义 。 从 可 变 剪 接 涉 及 的 基因 系统 分 类 分 析 , 可 变 剪接 多 发 生 在 免疫 
和 神经 等 复杂 系统 。 正 如 Dscam 基 因 所 示 ,可 变 剪接 产生 的 多 样 性 ,赋予 这 些 系统 精确 处 理 
复杂 信息 相 适 应 的 潜力 。 | 


(E) RT3E SHEER SE IL (图 7 一 13 和 图 7 一 14) 


可 变 剪 接 能 够 产生 惊人 的 多 样 性 ,但 我 们 对 其 调节 机 制 所 知 不 多 。 前 接 位 点 的 选择 受 
到 结合 到 非 前 接 位 点 RNA 元 件 的 剪接 因子 的 多 重 调节 。 参 与 可 变 剪 接 调节 的 RNA 元 件 包括 
ESE、ISE、ESS、ISS。 剪 接 因 子 包 括 SR 和 hnRNP 家 族 和 蛋白 等 多 种 因子 。 

真 核 生物 新 生 的 mRNA 前 体 经 过 5 戴 帽 ,剪接 ,3” 加 尾 等 加 工 成 为 成 熟 的 nRNA。 在 剪 
接 反应 过 程 中 ,含有 内 含 子 和 外 显 子 的 新 生 的 mRNA 前 体 , 在 剪接 体 作 用 下 切除 内 含 子 , 并 
将 外 显 子 依次 连接 起 来 的 过 程 。 剪 接 反应 由 剪接 体 执行 ,剪接 体 包 括 5 个 小 核糖 核 蛋白 复合 
体 U1、U2、U4、U5 和 U6 snRNPs, 和 50~100 种 非 snRNP 和 蛋白 。 剪 接 体 通过 RNA-RNA, RNA- 
蛋白 质 ,蛋白 质 - 蛋白 质 等 多 重 相互 作用 以 精确 切除 每 个 内 含 子 和 以 正确 次 序 连 接 外 显 子 。 

为 有 效 剪 接 , 绝 大 部 分 内 含 子 需要 : 

1. 一 个 保守 的 5” 剪接 位 点 , A/CAG | GURAGU, 

2. 一 个 分 支点 序列 BPS , YNYURAY ,后 面 跟着 一 个 多 聚 喀 嘎 Pytract Y10-20。 

3. 一 个 3 ”剪接 位 点 YAGC。 

剪接 体 的 形成 是 一 个 多 步骤 依次 进行 过 程 , 形 成 多 个 中 间 体 : 

1. E -复合 体形 成 UlsnRNA 通 过 碱 基 互补 识别 5” 剪接 位 点 , SR 蛋白 结合 。U2AF65 
和 U2AF35 识 别 多 聚 喀 啶 Pytract 和 3 ”剪接 位 点 。 

2. A -复合 体形 成 ”U2snRNA 通 过 碱 基 互 补 识别 分 支点 序列 BPS; 需 ATP。 

3. B -复合 体形 成 ”U4/U6 _ US tri-snRNP 随 后 与 mRNA 结 合 。 

4. C -复合 体形 成 ”最 后 , RNA-RNA, RNA- 和 蛋白 质 相 互 作 用 构象 改变 形成 有 催化 活 
性 的 剪接 体 。 

发 现 新 的 可 变 剪接 异 构 体 ,确定 每 个 异 构 体 的 独特 功能 和 生物 学 意义 ,并 曾 明 其 调节 机 
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图 7-14 剪 切 的 激活 


制 ,是 功能 基因 组 时 代 研 究 的 一 个 重要 领域 。 在 这 一 领域 研究 中 , 除 利用 经 典 的 分 子 生 物 学 
技术 外 ,还 需 建立 新 的 高 通 量 的 技术 ,如 生物 芯片 技术 , RNAi 技 术 等 ,并 要 与 生物 信息 学 技 
术 紧 密 结合 ,同时 需要 细胞 生物 学 .生物 化 学 ,临床 与 病理 学 .免疫 学 等 多 学 科 的 协作 , 才 有 C 
可 能 对 这 一 重要 的 生命 现象 有 所 了 解 。 


二 可 变 剪 接 数据 资源 : ASD, ASTD >> 


可 变 剪接 是 真 核 生物 有 别 于 原核 生物 的 基本 特征 之 一 ,近年 来 随 着 大 量 测序 工作 的 
开展 ,通过 实验 和 计算 机 处 理 的 方法 已 经 确定 了 越 来 越 多 的 可 变 剪 接 事件 ,研究 人 员 也 建 
立 了 很 多 与 可 变 剪接 相关 的 数据 库 。 例 如 , ASAP( alternative splicing annotation ): http: // 
www.bioinformatics.ucla.edu/ASAP , AS-ALPS( alternative splicing-induced alteration of protein 
structure ): http: //as-alps.nagahama-i-bio.ac.ip, ASTD( alternative splicing and transcript 
diversity ): http: /www.ebi.ac.uk/astd/ 等 数据 库 。ASD( altemative splicingdatabase ) 数据 库 ,网 
址 是 : http: //www.ebi.ac.uk/asd/, 现在 ASD 与 ATD 数 据 库 合并 成 数据 库 ASTD。 

ASD 数 据 库 包 括 人 类 和 老鼠 等 多 种 模式 生物 的 可 变 剪 接 事件 和 剪接 异 构 体 ,提供 了 
AltExtron、Altsplice 以 及 AEdb 三 个 子 库 。 


三 、 利 用 基因 芯片 技术 进行 可 变 剪 接 研 究 》》 
大 量 确定 选择 性 剪接 的 实验 数据 需要 用 生物 信息 学 的 方法 来 分 析 , 其 中 最 有 效 的 方法 
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就 是 用 较 长 探 针 (大 于 60nt ) 的 微 阵列 来 分 析 。Schoemaker 等 人 用 这 种 技术 检测 了 在 人 类 22q 
染色 体 上 注释 的 8183 个 外 显 子 。 这 种 技术 很 适合 去 检测 选择 性 剪接 ,设计 一 条 跨越 外 显 子 - 
外 显 子 连接 处 的 探 针 ,由 于 给 定 基 因 选 择 性 剪接 产物 会 造成 不 同 的 外 显 子 -外 显 子 连接 处 ， 
与 不 同 组 织 mRNA 样 品 杂 交 就 可 以 检测 选择 性 剪接 。 尽 管 大 部 分 给 定 基 因 的 外 显 子 -外 显 
子 连接 处 的 杂交 率 是 不 变 的 ,但 选择 性 剪接 会 导致 一 些 连接 处 的 上 移 或 下 移 。 这 些 芯 片 的 
快速 出 现 使 从 不 同 组 织 的 选择 性 剪接 基因 编写 出 选择 性 剪接 形式 目录 成 为 可 能 。Affymetrix 
公司 用 20 种 探 针 ( 25nt ) 代表 同 一 基因 的 不 同 外 显 子 ,尽管 一 个 基因 的 大 部 分 探 针 的 强度 在 
不 同 组 织 中 会 有 所 变化 ,但 某 个 组 织 中 的 特定 外 显 子 的 探 针 被 不 规则 地 杂交 可 以 指示 选择 
性 剪接 。 但 要 指出 的 是 只 用 基因 芯片 的 方法 ,不 结合 生物 信息 学 分 析 ,是 无 法 解决 选择 性 剪 
接 识 别 的 问题 。 








N., RNA-seq5 J SHRM >>> 


(一 ) 可 变 剪接 事件 


可 变 前 接 事件 共有 5 种 基本 类 型 ,分别 是 可 变 供 体位 点 ( alternative donor site ) 可 变 受 体 
位 点 ( alternative acceptor site ) 内 含 子 保留 型 ( intron retention )、 外 显 子 缺失 型 ( exon skipping ) 
和 外 显 子 互 斥 型 ( mutually exclusive exon )。 男 外 也 有 分 为 7 种 形式 的 ,包括 前 面 5 种 类 型 加 
上 可 变 的 起 始 或 末端 外 显 子 , 而 后 两 种 形式 更 有 可 能 是 可 变 启动 子 和 可 变 polyA 位 点 造成 
的 ,可 进行 专门 分 析 。 

绝 大 多 数 真 核 基因 编码 序列 由 外 显 子 和 内 含 子 间隔 组 成 。 外 显 子 和 内 含 子 之 间 的 边界 
称 作 剪 接 位 点 , 按 它们 在 内 含 子 两 端的 位 置 又 可 分 为 5' 剪接 位 点 (位 于 内 含 子 的 5” 端 ,也 称 
作 供 体位 点 ) RIS! 剪接 位 点 (位 于 内 含 子 的 3 端 ,也 称 作 受 体位 点 )。 基 因 的 前 体 mRNA 被 
转录 后 ,必须 通过 剪接 反应 切除 内 含 子 ,把 外 显 子 连 在 一 起 ,形成 一 个 成 熟 的 mRNA, 由 细胞 
核 转 运 到 细胞 质 中 进行 翻译 。 可 变 前 接 ( alternative splicing ) 是 指 从 一 个 mRNA 前 体 中 通过 
不 同 的 剪接 方式 (选择 不 同 的 剪接 位 点 组 合 ) 产 生 不 同 的 mRNA 剪接 异 构 体 ,生成 具有 不 同 
化 学 性 质 和 生物 功能 的 蛋白 亚 型 的 过 程 。 可 变 剪接 是 高 等 真 核 生物 中 丰富 蛋白 质 多 样 性 的 
重要 机 制 之 一 , 非 正 常 的 可 变 剪接 会 导致 各 种 疾病 。 


(=) RNA 一 seq 与 可 变 剪 接 异 构 体 


剪接 位 点 的 精确 定位 是 确定 真 核 生物 基因 结构 的 关键 ,目前 有 多 种 方法 可 用 来 在 基因 
组 范围 内 识别 剪接 位 点 。RNA-seq 技 术 是 全 新 的 转录 组 研究 方法 ,基本 上 克服 了 上 述 技术 
的 整 端 和 缺陷 ,无 需 预先 设计 探 针 ,可 对 任意 物种 的 整体 转录 活动 进行 检测 ,发现 新 基因 .新 
剪接 位 点 和 可 变 剪接 事件 ,对 转录 体 结 构 的 分 析 有 了 明显 的 提高 。 

RNA-Seq 还 可 对 可 变 剪 接 ( alternative splicing ) 进行 定量 研究 。Sultan 等 利用 深度 测序 
对 人 类 细胞 系 mRNA 剪接 进行 了 全 局 性 研究 ,鉴定 出 94 241 个 剪接 位 点 ,其 中 有 4096 个 是 
全 新 的 。 该 研究 还 表明 ,外 显 子 跳跃 ( exon skipping ) 是 选择 性 剪接 的 一 种 普遍 形式 。 最 新 
RNA-Seq 数据 分 析 显 示 , 至 少 48% 的 水 稻 基 因 经 历 可 变 剪接 , 比 之 前 报道 的 利用 RNA-Seq 
数据 分 析 结 果 ( 33% ) 和 EST/cDNA 数据 分 析 结 果 ( 20%~30% ) 多 ; 在 拟 南 草 中 , 至少 42% 携 
带 内 含 子 的 基因 经 历 可 变 剪接 ,多 于 之 前 利用 EST/eDNA 数据 分 析 的 20% 到 30% ,并 且 这 些 
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可 变 剪接 转录 本 中 ,大 多 数 是 携带 成 熟 前 终止 密码 子 的 剪接 异 构 体 ,可 能 在 基因 表达 调控 中 
发 挥 重 要 作用 。 

根据 RNA-sed 技术 的 最 新 应 用 (如 图 7-15 : 利用 RNA-seq 数 据 重 构 转 录 本 ), 人 们 越 来 
越 多 地 发 现 即使 来 自 同 一 基因 的 剪接 异 构 体 也 可 能 具有 不 同 的 功能 。 因 此 ,传统 的 根据 结 
构 基 因 组 学 将 基因 定义 为 “基因 组 上 可 定位 的 一 段 区 域 . 可 被 遗传 的 基本 单元 ” 面临 着 巨大 
的 挑战 。 而 根据 这 种 基因 定义 构建 的 功能 注释 数据 库 也 将 面临 较 大 的 改进 。 随 着 第 三 代 单 
分 子 测序 技术 的 发 展 ,我 们 将 有 机 会 对 基因 转录 产物 进行 更 深入 细致 的 研究 ,其 带 来 的 不 仅 
是 技术 的 革新 ,更 是 知识 的 革新 。 








[| 
Align reads to Assemble transcripts 
genome de novo 
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图 7-15 用 RNA 一 seq 数 据 重 构 转 录 本 的 策略 
来 源 自 : 1. Trapnell C, Pachter L, Salzberg SL. , TopHat: discovering splice junctions 
with RNA-Seq. Bioinformatics,2009. 25(9): 1105-1111. 2. Haas BJ, Zody MC., 
Advancing RNA—Seq analysis, Nature Biotechnology,2010. 28 : 421—423. 





第 五 节 
转录 调控 与 人 类 疾病 





Section 5 Transcription Regulation and Human Disease 


基因 表达 调控 是 维持 细胞 动态 平衡 过 程 中 至 关 重 要 的 一 步 。 对 基因 表达 的 控制 可 以 有 
多 个 步骤。 绝 大 多 数 的 调控 事件 都 发 生 在 转录 水 平 。 为 了 起 始 转录 , 真 核 生 物 RNA 聚 合 酶 
1 需要 与 被 称 为 转录 因子 的 一 系列 蛋白 质 密切 合作 。 转 录 因 子 一 般 分 为 两 组 : 中 基础 转录 
因子 ,它们 无 处 不 在 ,并 且 招募 RNA 聚 合 酶 下 多 重 蛋 白 复合 物 到 最 小 启动 子 ; @ 基 因 特 异 的 
转录 因子 ,激活 或 抑制 基础 转录 。 这 些 蛋 白质 与 DNA 上 一 系列 被 称 为 调控 序列 的 调控 模块 
相 结 合 。 因 此 ,基因 表达 调控 的 分 子 基础 就 是 转录 因子 与 顺 式 作用 序列 (结合 位 点 ) 的 结合 。 
越 来 越 多 的 研究 表明 人 类 疾病 与 转录 因子 上 的 遗传 缺陷 有 关 。 在 大 多 数 情 况 下 ,转录 因子 
处 的 基因 突变 导致 多 效 性 。 临 床 观 察 可 以 在 分 子 水 平 上 解释 ,这 些 反 式 作用 因子 通常 通过 
与 一 个 或 更 多 的 深层 激活 子 结合 ,从 而 控制 许多 基因 的 表达 。 此 外 ,许多 事件 导致 白血病 和 
实体 瘤 的 肿瘤 起 源 过 程 , 暗 示 着 转录 因子 的 过 表达 或 基因 突变 。 这 一 节 描 述 了 归 因 于 转录 
因子 编码 基因 及 其 同 源 结合 位 点 处 突变 造成 的 人 类 疾病 。 


一 、 顺 式 调控 元 件 》》 


转录 起 始 复合 物 与 RNA 聚 合 酶 和 其 他 相关 的 基础 因子 (一 般 转 录 因 子 ) 共 同 装配 , 进 
而 起 始 转录 。 这 种 多 蛋白 复合 物 与 一 段 被 称 为 核心 启动 子 的 短 DNA 序 列 结合 ,这 段 短 DNA 
序列 往往 包含 一 个 位 于 转录 起 始 位 点 上 游 20~30 个 碱 基 ,被 称 为 TATA 盒 的 保守 模 序 ( motif )。 
一 般 转 录 因 子 的 特点 是 它们 能 够 控制 最 小 启动 子 上 RNA 聚 合 酶 开 的 活性 。 这 一 步 是 它 能 够 
有 效 起 始 转录 的 关键 ,但 是 它 的 调控 还 需要 与 不 同调 控 元 件 结合 的 其 他 因子 的 介 导 。 

下 面 将 简要 介绍 这 些 调控 元 件 : 

顺 式 作用 元 件 ( cis-acting element ) 存在 于 基因 旁 侧 序 列 中 能 影响 基因 表达 的 序列 。 顺 
式 作 用 元 件 包 括 启 动 子 .增强 子 .调控 序列 和 可 诱导 元 件 等 ,它们 的 作用 是 参与 基因 表达 的 
调控 。 顺 式 作 用 元 件 本 身 不 编码 任何 和 蛋白质, 仅仅 提供 一 个 作用 位 点 ,要 与 反 式 作用 因子 相 
互 作用 而 起 作用 。 

顺 式 作 用 元 件 是 指 与 结构 基因 串联 的 特定 DNA 序 列 ,是 转录 因子 的 结合 位 点 ,它们 通过 
与 转录 因子 结合 而 调控 基因 转录 的 精确 起 始 和 转录 效率 。 

顺 式 作用 元 件 是 转录 调节 因子 的 结合 位 点 ,包括 启动 子 .增强 子 和 沉默 子 。 真 核 基因 


318 





第 七 章 ”转录 调控 的 信息 学 分 析 319 
CHAPTER 7 BIOINFORMATICS ANALYSIS ON TRANSCRIPTION REGULATION 


启动 子 是 原核 启动 序列 的 同 义 语 。 真 核 启 动 子 是 指 RNA 聚 合 酶 及 转录 起 始点 周围 的 一 组 
转录 控制 组 件 , 每 个 启动 子 包括 至 少 一 个 转录 起 始点 以 及 一 个 以 上 的 功能 组 件 , 转 录 调 
节 因 子 即 通过 这 些 功能 组 件 对 转录 起 始 发 挥 作 用 。 在 这 些 调 节 组 件 中 最 具 典 型 意义 的 就 
是 TATA 盒 子 , 它 的 共有 序列 是 TATAAA。TATA 盒 子 通常 位 于 转录 起 始点 上 游 -25 至 -30 
区 域 ,控制 转录 的 准确 性 和 频率 。TATA 盒 子 是 基本 转录 因子 TF ID 结合 位 点 ; TFID 则 
是 RNA 聚 合 酶 结合 DNA 必 不 可 少 的 。 除 TATA 盒 子 外 , GC 盒 子 (GGGCGG ) 和 CAAT 盒 子 
( GCCAAT ) 也 是 很 多 基因 中 常见 的 ,它们 位 于 起 始点 上 游 -30 至 -110bp 区 域 。 所 谓 增强 子 
就 是 远离 转录 起 始点 ,决定 组 织 特异 性 表达 增强 启动 子 转录 活性 的 特异 DNA 序 列 ,其 发 
挥 作 用 的 方式 与 方向 .距离 无 关 。 增 强 子 与 启动 子 非常 相似 : 都 是 由 若干 组 件 组 成 ,有 些 
组 件 既 可 在 增强 子 、 又 可 在 启动 子 出 现 。 从 功能 方面 讲 , 没 有 增强 子 存在 ,启动 子 通常 不 
能 表现 活性 ; 没有 启动 子 ,增强 子 也 无 法 发 挥 作 用 。 增 强 子 和 启动 子 有 时 分 隔 很 远 , 有 时 

某 些 基因 有 负 人 性 调节 元 件 抑制 子 (沉默 子 ) 存 在 。 有 些 DNA 序 列 既 可 作为 正 性 、 又 可 作 
为 负 性 调节 元 件 发 挥 顺 式 调节 作用 ,这 取决 于 不 同类 型 细胞 中 DNA 结 合 因子 的 性 质 。 

核心 启动 子 上 游 的 顺 式 作 用 序列 ,以 一 个 依赖 方向 的 方式 ,发 现 了 所 谓 的 近 启 动 子 元 
件 ; 这 些 序列 被 特定 的 转录 因子 绑 定 ,它们 的 出 现 可 以 增加 或 减少 基因 的 转录 活性 。 除 了 启 
动 子 区 域 , 其 他 顺 式 作用 元 件 可 以 位 于 起 始 位 点 5 7” 或 3” 端 几 百 或 上 千 碱 基 对 内 。 这 些 元 件 
也 是 序列 特异 的 转录 因子 的 结合 位 点 。 与 启动 子 相 比 ,这 些 元 件 的 位 置 和 方向 是 关于 基因 
的 变量 。 如 果 特 异 因 子 与 这 些 元 件 的 结合 可 以 激活 转录 ,那么 这 些 元 件 被 称 为 增强 子 ; 如 果 
抑制 转录 , 则 称 为 沉默 子 。 由 于 与 这 些 元 件 结合 的 转录 因子 可 能 在 不 同 环境 ,不同 组 织 中 具 
有 不 同 的 功能 ,导致 特定 的 顺 式 作用 元 件 的 重要 性 在 不 同 的 细胞 类 型 和 对 不 同 生理 刺激 的 
反应 上 有 很 大 的 区 别 。 

多 因子 重 钱 或 共 加 的 结合 位 点 可 以 导致 不 同 的 阳性 和 阴性 因子 对 位 点 的 竞争 。 在 某 些 
情况 下 ,协同 效应 依赖 于 顺 式 作用 元 件 附近 严格 的 间距 。 各 种 类 型 的 沉默 子 元 件 可 以 阻 断 
顺 式 连接 增强 子 的 活性 。 





二 、 反 式 作 用 因子 >> 


反 式 作用 因子 (trans-acting factor ) 是 指 能 直接 或 间接 地 识别 或 结合 在 各 类 顺 式 作 用 元 
件 核 心 序列 上 参与 调控 靶 基 因 转 录 效 率 的 蛋白 质 。 

大 多 数 真 核 转录 调节 因子 由 某 一 基因 表达 后 ,可 通过 另 一 基因 的 特异 的 顺 式 作用 元 件 
相互 作用 ,从 而 激活 另 一 基因 的 转录 。 这 种 调节 蛋白 称 反 式 作 用 因子 。 

参与 基因 表达 调控 的 因子 ,它们 与 特异 的 靶 基 因 的 顺 式 元 件 结合 起 作用 。 编 码 反 式 作 
用 因子 的 基因 与 被 反 式 作用 因子 调控 的 靶 序 列 (基因 ) 不 在 同一 染色 体 上 。 反 式 作 用 因子 有 
两 个 重要 的 功能 结构 域 : DNA 结 合 结构 域 和 转录 活化 结构 域 ,它们 是 其 发 挥 转录 调控 功能 的 
必需 结构 ,此 外 还 包含 有 连接 区 。 反 式 作用 因子 可 被 诱导 合成 ,其 活性 也 受 多 种 因素 的 调节 。 

同一 类 序列 特异 性 的 反 式 作用 因子 由 多 基因 家 族 所 编码 ,它们 具有 特定 的 蛋白 质 结构 
(如 上 述 的 锌 指 结构 \ 碱 性 亮 氨 酸 拉 链 、 螺 旋 - 环 -螺旋 基 元 等 ) 和 和 蛋白质 结 构 上 的 同 源 性 , 因 
而 构成 反 式 作用 因子 家 族 , 如 类 固 醇 激素 受 体 家 族 、AP1 家 族 等 。 
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主要 包括 : 

1. DNA 结 合 域 螺旋- 转角- 螺旋; @) 锌 指 结构 ; @ 亮 氨 酸 拉链 ; @ 螺 旋 - 突 环 -螺旋 。 

2. 转录 激活 域 与 其 他 转录 因子 相互 作用 的 结构 成 分 。 

随 着 表 观 遗传 学 的 发 展 ,研究 发 现 除了 和 蛋白, DNA、RNA 也 有 调控 功能 ,所 以 现在 也 称 
反 式 调控 元 件 ,主要 有 miRNA 转录 因子 等 。 





三 、 顺 式 作 用 元 件 与 疾病 (心脏 病 . 肾病 .Alzheimer、cancer ) > > 


(一 ) B Leyden 血 友 病 


X- 连 锁 因 子 区 基因 中 的 突变 可 以 导致 乙 型 血 友 病 。 多 数 情况 下 是 由 于 编码 蛋白 质 序 
列 中 的 突变 。 然 而 ,在 少数 情况 下 ,疾病 归 因 于 因子 区 基因 调控 区 域 中 的 突变 。B Leyden 血 
友 病 患者 伴 有 严重 的 出 血 症 状 并 且 <1% 在 童年 时 血浆 凝血 因子 区 量 正常 。 青 春 期 后 ,临床 
证 状 逐步 改善 并 且 血 浆 凝 血 因 子 区 浓度 上 升 到 正常 人 的 60%。 所 有 被 研究 的 患者 在 因子 区 
基因 转录 起 始 位 点 附近 20bp 范 围 内 存在 突变 。 这 些 突变 扰乱 了 转录 因子 与 因子 区 基因 的 
结合 ,这 对 因子 区 基因 表达 来 说 是 至 关 重 要 的 。 例 如 ,在 -20 处 的 突变 干扰 了 肝 细 胞 核 因子 
4( HFN4 ) 的 结合 。 此 外 ,因子 芭 的 启动 子 -22 到 -38 区 域 包含 一 个 雄性 激素 受 体 结 合 位 点 ， 
这 一 位 点 与 HEN4 结 合 位 点 有 交替。 在 青春 期 ,雄性 激素 受 体 与 这 一 位 点 结合 可 以 补偿 缺乏 
HFN4 或 其 他 转录 因子 ,激活 因子 多 基因 。 某 些 -22 到 -38 区 域 的 突变 ,被 称 为 Brandbourg 变 异 ， 
可 以 阻止 这 种 补偿 ,导致 在 青春 期 没有 任何 改善 。 


(二 ) 血红 蛋白 病 


遗传 性 持续 性 胎儿 血红 蛋白 增多 症 ( hereditary persistence of fetal hemoglobin, HPFH ), g- 
球 和 蛋白 在 成 年 后 仍然 持续 表达 ,可 以 作为 另 一 个 由 顺 式 作用 元 件 突变 导致 人 类 疾病 的 例子 。 
在 Ag- 球 蛋白 基因 启动 子 区 域 已 经 识别 出 了 点 突变 ,在 那里 存在 CATA-1 转 录 因 子 结合 位 
点 。Ag- 球 蛋白 基因 不 能 被 抑制 。GATA-1 结 合 位 点 也 在 LCR 中 存在 。 这 可 以 部 分 解释 在 西 
班 牙 裔 地 中 海 贫血 中 到 底 发 生 了 什么 ,大 部 分 LCR 叶 基因 秘 在 染色 质 构象 中 删除 ,导致 DNA 
B 工 不 可 接近 ,造成 球 蛋白 基因 表达 缺乏 。TATA 盒 ( -28 到 -31 ) 和 CACC 盒 ( -92 到 -105 ) 的 
突变 已 经 在 b- 地 中 海 贫血 中 发 现 ,其 特点 是 b- 球 蛋白 基因 表达 减少 。 

(=) THALES TERIS 

Unverricht-Lundborg typeXETT PE JLPE SE HERSCIR X Rh FE VL BU 6 Ae CAS B He t Fe ARIA ,发 
病 6 至 13 年 带 有 不 同 程度 的 精神 恶化 及 小 脑 共 济 失调 。 

(四 ) 启动 子 多 态 性 与 人 类 疾病 

影响 某 些 基因 表达 水 平 的 启动 子 多 态 性 可 能 与 各 种 不 同 病 症 有 关 。 不 同 的 MHC 下 类 等 
位 基因 的 差异 表达 可 能 与 启动 子 的 多 态 性 有 关 。 例 如 ,一 些 HLA-DQ 基 因 的 等 位 基因 具有 
不 同 强度 的 启动 子 , 以 响应 细胞 因子 ,如 TNF- a ,揭示 出 与 某 些 自身 免疫 疾病 易 感 性 等 位 基 


因 相 关 的 致 病 机 制 。 人 类 TNF- a 启动 子 的 一 个 稀有 等 为 被 称 为 TNF2 ,位 于 一 个 被 明确 定义 
的 与 自身 免疫 和 高 TNF- a (肿瘤 坏死 因子 ) 产 生 相关 的 HLA-A1l 单 体 附近 。TNF- a 的 高 血 
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浆 水 平 与 症 疾 和 利 什 血 原 虫 感染 的 严重 性 相关 。 此 外 ,为 TNF2 等 位 基因 纯 合 子 的 患者 表现 
出 脑 型 症 疾 死亡 率 明显 更 高 。 





四 、 反 式 作用 因子 与 疾病 >> 


转录 因子 的 重要 作用 以 及 单一 因子 可 以 影响 许多 基因 表达 这 一 事实 表明 由 遗传 突变 导 
致 的 转录 因子 的 失 活 与 生存 是 对 立 的 。 这 在 许多 情况 下 可 能 是 正确 的 ,但 一 些 转录 因子 的 
突变 与 生存 兼容 ,并 且 导 致 了 特定 的 疾病 。 在 过 去 几 年 , 越 来 越 多 地 发 生 在 编码 基因 转录 因 
子 处 的 基因 突变 表现 出 与 一 系列 先天 性 综合 征 相 关 。 其 后 果 是 畸形 、 生 理 通 路 的 中 断 或 者 
肿瘤 发 生 。 观 察 到 的 异常 经 常 局 限于 表达 受 影 响 基因 组 织 的 子 集 。 在 大 多 数 情况 下 , 表 型 
是 多 效 的 ,反映 了 转录 因子 控制 许多 基因 表达 这 一 事实 实 。 突 变 分 析 , 与 同 源 小 鼠 模 型 比较 ， 
揭示 出 蛋白 质 共同 作用 的 分 子 机 制 ,深入 观察 了 由 这 些 基 因 控 制 的 主要 生理 过 程 。 

除了 先天 综合 征 , 大量 特 定 转 录 因 子 的 体 细胞 突变 促成 了 肿瘤 发 生 的 多 步骤 过 程 并 且 
导致 越 来 越 多 的 癌症 ,在 这 些 癌症 中 ,这 些 步 又 可 能 会 起 到 一 定 的 作用 。 在 某 些 肿瘤 中 ,如 
人 类 白血病 ,观察 到 的 染色 体 易 位 ,就 是 多 种 转录 因子 基因 的 调控 和 编码 区 域 重 排 的 结果 
(17-16 ). 


Transcription defects 
and human diseases 


E cis-acting sequences 
( DNA ) 


trans—acting factors 
( proteins ) 


chromatin activators 

remodeling ( DNA binding 

factors pane pun 
factors ) 


图 7-16 转录 调控 缺陷 与 人 类 疾病 
来 源 自 : Jean Villard, Transcription regulation and human diseases, SWISS 
MED WKLY,2004.134 : 571—579. 


(一 ) 一 般 转录 因子 突变 与 人 类 疾病 
在 大 量 与 由 RNA 聚 合 酶 下 介 导 的 转录 起 始 阶段 相关 的 一 般 转 录 因 子 中 , TFIH 具 有 特殊 


的 作用 。 这 种 多 亚 基 蛋白 复合 物 在 一 些 受 着 色 性 干 皮 病 困扰 的 患者 中 是 缺乏 的 。 着 色 性 干 
皮 病 ( xeroderma pigmentosum, XP ) 的 特点 是 对 阳光 引起 的 皮肤 伤害 具有 极度 的 敏感 性 ,不 







general 
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足 或 过 度 色 素 沉着 ,并 易 患 皮肤 癌 。 此 病 是 由 于 缺乏 一 种 与 DNA 修 复 相 关 的 机 制 。TFIIH 的 
两 个 亚 基 ( XP-B 和 XP-D ) 对 DNA 核 苷 酸 切除 修复 来 说 是 必 不 可 少 的 。 这 两 种 蛋白 质 都 具有 
解 旋 酶 活性 。 这 两 个 亚 基 在 某 些 XP 患者 中 发 生 突变 。 此 外 , XP 患者 的 一 个 亚 基 显示 出 眼 部 
或 神经 系统 异常 ,如 精神 迟缓 以 及 身体 和 性 征 发 育 迟 缓 ,但 并 不 容易 发 生 癌 症 。 这 些 临 床 症 
状 像 DNA 修 复 缺陷 一 样 很 难 被 合理 的 解释 。 患 者 携带 XP-B 或 XP-D 基 因 的 突变 具有 XP 和 CS 
或 TTD 的 临床 特点 。TFIIH 在 DNA 修 复 和 转录 中 发 挥 作用 这 一 发 现 ,引发 了 一 种 假设 , 即 由 
编码 TFIIH 亚 基 的 基因 突变 携带 患者 展示 出 的 临床 症状 的 非 正 常 变异 ,并 不 是 DNA 修 复 缺陷 
的 结果 ,而 是 来 自 于 转录 的 缺陷 。 


(=) 染色 质 重 塑 因子 多 态 性 与 人 类 疾病 中 的 共 激活 子 


染色 质 重 塑 是 人 类 表 观 遗传 的 重要 方面 ,因此 任何 过 程 发 生 异 常 都 会 导致 人 类 基因 组 
的 不 正常 表达 ,从 而 引起 许多 疾病 。 这 其 中 ,染色 质 重 塑 异 常 引发 的 人 类 疾病 基本 是 由 于 重 
塑 复 合 物 中 的 关键 蛋白 发 生 突变 ,导致 染色 质 重 塑 失败 , 即 核 小 体 不 能 正确 定位 ,并 使 修复 
DNA 损 伤 的 复合 物 ,基础 转录 装置 等 不 能 接近 DNA ,从 而 影响 基因 的 正常 表达 而 引起 的 。 如 
果 突 变 导 致 抑 癌 基因 或 调节 细胞 周期 的 蛋白 出 现 异 常 将 导致 癌症 的 发 生 。 乙 酰 化 酶 的 突变 
导致 正常 基因 不 能 表达 ,去 乙酰 化 酶 的 突变 或 一 些 和 去 乙酰 化 酶 相关 的 蛋白 的 突变 使 去 乙 
酰 化 酶 错误 募集 将 引发 肿瘤 等 疾病 。 

目前 的 研究 中 发 现 ,白血病 的 发 病 机 制 中 ,染色 质 重 塑 异 常 是 非常 重要 的 一 环 。 急 性 
早 幼 粒 细胞 白血病 (acute promyelocytic leukemia, APL ) 会 导致 多 种 染色 体 异 常 ,结果 形成 
PML2RAR a , PLZF2RAR a 融合 蛋白 。 然 而 在 生理 浓度 的 RA 存在 时 , PML2RAR a 并 非 激 
活 转录 而 是 阻 抑 转 录 , 这 是 由 于 PML2RAR a 和 N2CoR/ Sin3/ HDAC1 辅助 抑制 因子 复合 物 
间 相 互 作用 增强 所 致 。 当 配 基 水 平 足以 释放 与 野生 型 RAR o 结合 的 辅助 阻 抑 复合 物 时 ， 
PML2RAR o 仍然 和 辅助 阻 抑 复合 物 牢固 结合 ,使 RA 反应 基因 的 启动 子 维持 去 乙酰 化 构象 、 
阻 抑 转录 ,产生 与 RAR o 显 性 负 抑制 剂 作用 后 相同 的 表 型 。 

反 式 作用 蛋白 质 可 能 通过 影响 染色 质 结 构 影 响 基 因 表 达 。 在 酵母 中 ,有 一 组 被 称 为 
SWISNF 的 基因 ,显示 出 很 强 的 编码 可 以 直接 改变 染色 质 结 构 的 蛋白 质 的 能 力 。 这 些 和 蛋白 
作用 的 确切 模式 , 即 形成 一 个 大 的 多 蛋白 复合 物 ,目前 还 不 能 清楚 的 了 解 。 这 些 蛋 白质 具有 
一 个 假想 的 DNA 结 合 结构 域 ( 锌 指 和 蛋白 结构 域 ) 如 ATP 酶 / 解 旋 酶 类 似 的 结构 域 。 在 人 类 中 ， 
SWI/SNF 的 几 个 同 源 基因 已 经 被 描述 出 来 。 其 中 之 一 是 ATRX, 它 在 X- 连 锁 人 类 综合 征 中 发 
生 罕 变 , 可 以 导致 神经 发 育 迟 缓 、A 型 地 中 海 贫血 症 .生殖 器 异常 和 面部 畸形 。CREB 结 合 蛋 
白 ( CREB-binding protein, CBP ) 共 激 活 子 也 与 染色 质 重 塑 有 关 , 并 且 已 经 被 发 现在 一 种 罕 
见 的 人 类 综合 征 中 存在 突变 。 可 以 区 分 染色 质 激活 与 失 活 的 特征 之 一 是 组 蛋白 乙酰 化 状态 。 
组 蛋白 是 真 核 生物 核 小 体 的 主要 结构 蛋白 ,在 将 DNA 组 装 成 染色 质 过程 中 发 挥 着 关键 作用 。 
在 转录 激活 区 域 ,染色 质 压 缩 率 低 ,组 蛋白 高 度 乙 酰 化 。 鲁 宾 斯 坦 - 塔 比 综合 征 就 是 一 种 症 
状 是 面部 畸形 拇指 宽大 脚趾 宽大 和 精神 发 育 迟 绥 的 疾病 。 携 带 组 蛋白 乙酰 化 活性 的 核 蛋 
白 CBP 编 码 基 因 中 的 突变 可 以 导致 该 病 。 


(三 ) 转录 激活 子 突变 与 发 育 
一 个 典型 的 人 类 疾病 中 转录 因子 突变 的 例子 是 Pit-1。 这 个 转录 因子 的 特征 是 有 一 个 
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POU 型 同 源 结 构 域 。 它 在 腺 垂体 中 表达 ,并 且 是 分 沁 生 长 激素 (growth hormone, GH ) 泌乳 激 
素 ( prolactin, PRL ) 以 及 促 甲 状 腺 激素 (thyroid stimulating hormone, TSH ) 的 细胞 分 化 和 生存 
所 必需 的 。Pit-1 突 变 导 致 联合 垂体 激素 缺乏 ( combined pituitary hormone deficiency, CPHD ) 
的 智力 迟钝 。 已 经 有 部 分 人 被 查 出 携带 CPHD 及 Pit-1 突 变 。 


(四 ) 转录 激活 子 突变 与 癌症 


p53 是 一 种 肿瘤 抑制 基因 。 在 所 有 恶性 肿瘤 中 ,50% 以 上 会 出 现 该 基因 的 突变 。 由 这 
种 基因 编码 的 蛋白 质 ( protein ) 是 一 种 转录 ( transcription ) 因子 ,其 控制 着 细胞 周期 的 启动 。 
许多 有 关 细 胞 健康 的 信号 向 p53 蛋白 发 送 。 关 于 是 否 开始 细胞 分 裂 就 由 这 个 细胞 决定 。 如 
果 这 个 细胞 受 损 ,又 不 能 得 到 修复 , 则 p53 蛋白 将 参与 启动 过 程 ,使 这 个 细胞 在 细胞 凋 亡 
( apoptosis ) 中 死去 。 有 p53 缺陷 的 细胞 没有 这 种 控制 ,甚至 在 不 利 条 件 下 继续 分 裂 。 像 所 有 
其 他 肿瘤 抑制 因子 一 样 , p53 基因 在 正常 情况 下 对 细胞 分 裂 起 着 减 慢 或 监视 的 作用 。 细 胞 中 
抑制 癌变 的 基因 “p53” 会 判断 DNA 变 异 的 程度 ,如 果 变 异 较 小 ,这 种 基因 就 促使 细胞 自我 修 
F TIDNAAESEBEK , “p53” 就 诱导 细胞 凋 亡 。 | 

p53 基因 突变 后 ,由 于 其 空间 构象 发 生 改 变 , 失 去 了 对 细胞 生长 , 凋 亡 和 DNA 修复 的 调 
控 作用 ,p53 基因 由 抑 癌 基因 转变 为 癌 基 因 。 

P53 基因 与 人 类 50% 的 肿瘤 有 关 , 目 前 发 现 的 有 肝癌 、 乳 腺 癌 、 膀 胱 癌 、 胃 癌 、 结 肠 癌 、 前 列 
腺 癌 、 软 组 织 肉 瘤 、 卵 巢 癌 、 脑 瘤 、 淋 巴 细 胞 肿瘤 .食管 癌 肺癌、 成 骨肉 瘤 等 ,人 类 肿瘤 中 pz53 突 
变 主要 在 高 度 保守 区 内 ,以 175.248 .249.273 .282 位 点 突变 最 高 ,不 同 种 类 肿瘤 不 同 ,如 结肠 
癌 和 乳腺 癌 有 相似 的 流行 病 学 (包括 地 区 分 布 和 和 危险 因素 ), 但 p53 突变 谱 并 不 一 致 。 结 肠 癌 
G: CA : T 转 换 占 79% ,而 且 50% 以 上 转换 突变 发 生 在 第 3~5 结 构 域 的 CpG 位 点 。 在 乳腺 癌 中 ， 
只 发 现 13% 的 转换 在 CpG 位 点 。 此 外 , G-T 颠 换 在 乳腺 癌 占 14, 但 在 结肠 癌 十 分 罕见 。 淋 巴 
瘤 和 白血病 的 pz53 突 变 方式 与 结肠 癌 相 似 , 即 大 部 分 突变 为 CPG 位 点 的 转换 , G 一 T 颠 换 较 低 ， 
A: TOG : CEA : T 位 点 突变 较 高 。 伯 基 特 淋巴 瘤 与 其 他 B 细 胞 淋巴 瘤 和 T 淋 巴 细胞 恶性 
病变 的 p53 突 变 谱 相似 ,但 伯 基 特 淋巴 瘤 的 转换 突变 较 高 。 在 非 小 细胞 肺癌 中 G : COT : A 
最 普遍 ,食管 癌 颠 换 率 很 高 ,与 肺癌 不 同 的 是 , G : CMA : T 位 点 有 相似 的 突变 率 。 我 国 启 
东 地 区 50% 为 249 癌 码 子 的 G 一 C、G 一 T 颠 换 , 而 南非 肝癌 80% 为 GC 一 T 颠 换 。 骨 肉瘤 中 p53 突 变 
率 为 75% ,主要 集中 在 5~9 外 显 子 。 
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一 、 结 合 序列 和 表达 谱 数 据 识 别 组 合式 转录 调控 模式 和 调控 网 络 》》 


细胞 生命 活动 复杂 性 的 基础 是 基因 的 表达 。 由 信号 分 子 、 转 录 因 子 以 及 转录 因子 的 训 
基因 所 构成 的 调控 网 络 是 组 织 细胞 复杂 性 的 系统 形式 。mRNA 的 表达 水 平 由 非 编 码 区 上 的 
顺 式 转录 元 件 的 逻辑 输入 信号 决定 。 这 些 顺 式 转录 原件 形成 的 逻辑 信号 最 终 影响 到 细胞 生 
物 学 过 程 ,包括 生理 适应 性 ,细胞 多 样 性 的 产生 以 及 形态 发 育 等 。 由 全 基因 组 全 局 方法 与 
技术 ,包括 计算 方法 、 分 析 转 录 调 控 网 络 的 结构 与 动态 特性 是 该 分 析 解 决 方案 的 主要 内 容 。 
全 基因 组 分 析 已 经 证 明了 重要 的 转录 网 络 组 织 是 由 mRNA 水 平 上 具有 共 表 达 模 式 的 基因 构 
成 ,也 就 是 说 许多 生物 学 过 程 是 由 基因 产物 的 同时 性 参与 完成 的 。 比 较 基 因 组 学 分 析 也 得 
到 多 物种 间 这 些 基因 调控 结构 序列 的 保守 性 。 基 于 模式 识别 的 算法 识别 调控 序列 已 经 应 用 
于 单 细 胞 酵母 中 。 可 以 针对 不 同 数据 源 和 需求 分 析 调 控 网 络 : 

本 例 采 用 统计 学 模型 系统 解决 基因 组 范围 的 基因 表达 谱 下 的 复杂 调控 模式 ,包括 识别 
决定 基因 表达 调控 的 DNA 序 列 上 的 调控 元 件 及 其 空间 方位 (定位 与 方向 位 置 ); 识别 组 合式 
调控 模式 在 不 同 条 件 下 的 功能 。 利 用 贝 叶 斯 统计 模型 基于 序列 特征 ,更 可 以 推测 出 基因 表 
达 谱 特征 ,并 将 其 与 真是 数据 做 比较 得 到 该 方法 的 准确 度 和 解释 力 。 

分 析 步 又 : 

. 根据 表达 谱 数 据 得 到 差异 的 基因 集合 ( Gene Set )。 

. 采用 Force-directed placement 算 法 计算 高 度 相 关 性 的 共 表 达 基 因 。 

. 衡量 非 编码 序列 特征 影响 基因 表达 的 程度 。 

. 在 表达 谱 数 据 集中 的 不 同 条 件 下 ,全 局 地 计算 组 合式 转录 调控 元 件 的 规律 模式 。 
. 计算 获得 预测 的 转录 调控 元 件 序列 motif 定位 与 方位 方向 。 

. 获取 条 件 特异 .空间 特异 ,或 时 间 序列 上 时 间 特 异 点 上 的 转录 调控 模式 和 机 制 。 





— 
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二 、 基 于 启动 子 结构 元 件 的 组 合 模式 识别 调控 网 络 》》 


转录 调控 的 组 合式 调控 具有 重要 的 生物 学 意义 ,例如 细胞 可 以 使 用 多 个 不 同 的 转录 因 
子 的 组 合 参与 多 种 不 同 条 件 下 生物 反应 。 本 例 基于 生物 基因 的 启动 子 序列 中 的 motif 组 合 ， 
并 结合 芯片 表达 谱 数 据 预 测 新 的 motif 和 motif 之 间 的 关联 ,进而 构建 特定 条 件 下 的 转录 调控 网 
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络 。 男 外 可 以 预测 发 现 是 否 在 调控 网 络 中 具有 不 同 生物 功能 模块 的 相互 交 联 ( Cross-Talk )。 
分 析 步 又 : 
. 构建 已 知 和 预测 的 启动 子 基 序 -motif; 预测 motif 使 用 AlignACE 算 法 。 
. 发 现 所 有 motif 的 组 合 情 况 以 及 对 应 的 基因 。 
. 对 具有 motif 组 合 的 基因 和 集 ( Gene set ) 计算 表达 一 致 性 得 分 ( expression coherence score )。 
4. 识别 具有 统计 显著 性 的 协同 性 motif 组 合 。 
5. 根据 motif 协 同性 构建 motif map 以 及 调控 网 络 。 
6. 同时 比较 单独 motif 和 组 合 motif 在 表达 谱 上 的 效果 。 
1. 针对 不 同 motif 组 合 ,计算 motif 组 合 之 间 的 相对 距离 与 出 现 频 度 分 布 图 (图 7-17 ); 以 
及 motif 协 同性 的 方向 偏好 性 ( orientation bias ), 通 过 真实 情形 与 随机 模拟 做 对 比 计算 协同 
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图 7-17 motif 组 合 之 间 的 相对 距离 与 出 现 频 度 分 布 图 
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motif 的 方向 偏好 性 显著 性 , 即 Orientation bias score; 显著 性 通过 ”Wilcoxon rank sum 统计 学 
检验 。 另 外 ,可 视 化 协同 性 motif 的 共 表 达 情 况 。 

2. 构建 全 局 motif 协 同性 图 谱 ( global motif synergy map ) (图 7-18 )。 已 知 和 预测 的 motif 
之 间 的 边 表示 组 合 协同 性 存在 , 边 的 P 值 计算 说 明 协 同性 的 可 靠 性 。P 值 <<P0 阔 值 的 mitif 组 
合 才 会 最 终 可 视 化 显示 出 来 作为 结果 使 用 。 
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图 7-18 全 局 motif 协 同性 图 谱 


3. 探索 计算 motif 与 表达 谱 特 征 的 关联 (图 7-19 )。 除 了 计算 motif 之 间 的 关联 组 合 ,我们 
也 要 计算 每 个 组 合 中 的 motif 对 表达 谱 的 影响 。 我 们 进而 可 以 识别 是 哪些 motif 组 合 对 ( motif 
pairs ) 或 共享 哪些 motifs 的 基因 对 表达 谱 产 生效 应 。 协 同 的 motif 和 在 每 个 条 件 、 样 本 下 表达 
程度 对 应 起 来 。 

基于 TF 结 合 数据 和 表达 谱 数 据 识 别 遗 传 调控 模块 : 

该 例 目的 是 识别 基因 共同 被 转录 调控 的 模块 ( gene module )。 基 因 模 块 被 定义 为 具有 共 
表达 模式 的 以 及 共同 被 一 组 转录 因子 (TF set ) 转 录 的 基因 集 ( gene set )。 整 合 转录 因子 TF 
和 调控 的 基因 模块 将 重 构 出 转录 调控 网 络 ( regulatory network )。 该 例 并 未 假设 在 特定 的 基 
因 模块 中 的 基因 表达 模式 直接 受到 调控 模块 转录 因子 的 表达 模式 影响 。 因 为 在 很 多 情况 下 ， 
转录 因子 受到 转录 后 修饰 ,而 且 该 例 并 未 能 从 表达 谱 中 观测 到 基因 产物 即 蛋 白质 的 水 平 。 
因此 ,该 例 基于 转录 因子 与 DNA 结 合 的 组 学 数据 ,包括 CHIP-chip, CHIP-seq 等 ,以 及 基因 表 
达 谱 数据 ( expression data ), 使 得 两 个 类 型 的 组 学 数据 相互 补 。 该 例 首先 基于 TF-DNA 结 合 
强度 的 P 值 ,选择 被 一 组 TF 结合 并 且 具 有 共 表 达 模 式 的 基因 和 集 。 通 过 适当 的 放 低 结合 强度 的 
P 值 尽 可 能 地 将 潜在 共 调 控 的 靶 基因 考虑 进来 ,建立 一 组 基因 共 转 录 调 挖 模块 。 
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图 7-19 motif 与 表达 谱 特 征 的 关联 结果 


1. 共 调 控 基因 模块 和 重 构 的 调控 网 络 图 (图 7-20 )。 
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图 7-20 共 调 控 基 因 模 块 和 重 构 的 调控 网 络 图 
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2. Motif 富 集 度 分 析 ( 图 7-21 )。 
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图 7-21 Motit'$ #4 
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生物 分 子 网 络 与 通路 


BIOLOGY MOLECULAR NETWORK AND 
PATHWAY 


在 过 去 的 一 个 世纪 中 ,分 子 生物 学 的 很 多 领域 只 是 研究 少数 几 个 基因 、 蛋 白 或 分 子 
的 功能 ,但 是 ,现在 人 们 已 经 越 来 越 意识 到 很 多 生物 功能 不 只 由 几 个 分 子 或 基因 所 控制 
的 。 相 反 , 几 乎 所 有 的 生物 特征 都 是 由 细胞 内 众多 成 分 (如 DNA、RNA、 有 蛋白质. 酶 和 代 
谢 子 等 ) 之 间 复 杂 的 相互 作用 所 引起 的 。 因 此 ,人 们 必须 要 在 成 千 上 万 个 生物 分 子 组 成 
的 复杂 系统 的 层面 上 予以 认识 ,而 不 仅仅 研究 少数 几 个 基因 的 功能 。 揭 示 数 量 巨 大 的 生 
物 大 分 子 及 其 间 的 相互 作用 如 何在 复杂 的 生存 环境 中 行使 生物 学 功能 ,需要 研究 者 采用 
不 同 于 传统 生物 学 研究 手段 的 新 技术 。 这 样 复杂 的 系统 可 以 自然 地 模拟 作 人 们 很 熟悉 
的 概念 : 网 络 。 生 物 分 子 网 络 与 其 他 网 络 在 现实 世界 中 普遍 存在 。 例 如 ,近年 来 我 国 修 
建 的 高 速 公 路 将 众多 城市 连接 为 一 个 巨大 的 网 络 , 城 市 作为 网 络 中 的 节点 通过 公路 与 其 
他 城市 连接 在 一 起 。 互 联网 本 身 也 是 一 个 巨大 的 网 络 ,网 络 服 务 器 .个 人 计算 机 和 其 他 
计算 设备 被 通讯 线路 连接 在 一 起 ,通过 网 络 中 节点 之 间 的 连接 ,实现 了 全 球 计算 机 间 的 
高 速 通讯 与 信息 资源 共享 。 在 我 们 的 周围 还 有 人 或 者 群体 作为 节点 被 多 种 多 样 的 关系 
关联 起 来 的 社会 学 网 络 。 在 生物 医学 领域 ,各 种 复杂 疾病 ,如 各 种 癌症 、 糖 尿 病 、 高 血压 、 
精神 分 裂 症 等 的 发 生 和 发 展 同样 大 多 由 于 细胞 内 部 多 个 分 子 、 基 因 、 蛋 白 的 改变 而 影响 
正常 的 生物 学 过 程 。 细胞 内 部 的 各 基因 、 蛋 白 间 ,彼此 相互 作用 进而 形成 复杂 的 蛋白 质 
网 络 、 基 因 表 达 网 络 \ 信 号 传导 网 络 、 转 录 调 控 网 络 、 代 谢 网 络 等 。 因 此 ,基于 生物 学 网 络 
的 疾病 相关 研究 中 ,研究 者 们 通常 利用 网 络 分 析 技 术 , 从 系统 角度 揭示 复杂 疾病 的 产生 
和 发 展 规律 。 本 章 将 介绍 生物 学 网 络 分 析 在 系统 生物 学 中 的 应 用 。 通 路 作为 生物 学 网 
络 的 一 种 重要 类 型 ,本 章 将 对 基于 网 络 的 通路 分 析 进 行 详细 介绍 和 应 用 实例 展示 
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网 络 的 基本 概念 





现实 世界 的 复杂 系统 ,尤其 生物 系统 中 ,包含 很 多 不 同 层 面 和 不 同 组 织 形式 的 网 络 。 生 
物 系 统 中 的 网 络 通常 由 许多 参与 不 同 生 物 过 程 的 分 子 元 件 组 成 ,其 中 最 重要 的 元 件 是 基因 、 
代谢 子 和 和 蛋 白质。 但 对 “系统 ”而 言 ,关键 不 是 这 些 元 件 本 身 , 而 是 元 件 之 间 的 关联 关系 。 
基因 ,代谢 子 和 和 蛋白 之 间 并 不 是 彼此 孤立 的 ,细胞 内 部 的 各 基因 .代谢 子 和 蛋白 间 ,彼此 相互 
作用 进而 形成 复杂 的 蛋白 质 网 络 、 基 因 表 达 网 络 \ 信 号 传导 网 络 、 转 录 调 控 网 络 、 代 谢 网 络 
等 。 此 外 ,生物 学 网 络 的 发 展 使 得 各 种 典型 分 析 策 略 和 分 析 方 法 迅速 扩展 到 其 他 由 生物 系 
统 数 据 推导 出 的 衍生 网 络 中 ,如 疾病 基因 网 络 。 为 了 能 够 清晰 地 理解 与 分 析 网 络 , 我 们 首先 
介绍 网 络 的 基本 概念 。 








一 、 网 络 的 定义 >> 


网 络 ( network ) 通常 可 以 用 数学 模型 中 的 图 表示 ,如 G=(V,E)。 其 中 V 是 网 络 的 节点 
集合 ,下 是 边 集 合 。 例 如 : 每 个 蛋白 质 可 以 是 图 中 的 节点 ; 那么 蛋白 质 相互 作用 关系 可 以 构 
成 边 集合 。 如 果 V 中 的 两 个 节点 v1 与 v2 之 间 存 在 一 条 属于 E 的 边 el, 则 称 边 el 连 接 v1 与 v2, 或 
者 称 为 v1 连接 于 v2, 也 可 以 称 作 v2 是 v1 的 邻居 。 


二 、 有 向 与 无 向 网 络 》》 


根据 网 络 中 的 边 是 否 具有 方向 性 或 者 说 连接 一 条 边 的 两 个 节点 是 否 存在 顺序 ,网 络 可 
以 分 为 有 向 网 络 与 无 向 网 络 , 边 不 存在 方向 性 为 无 向 网 络 ( undirected network ), 如 图 8-1A 所 
示 。 否 则 为 有 向 网 络 ( directed network ), 如 图 8-1B 所 示 。 生 物 分 子 网 络 的 方向 性 取决 于 其 
所 代表 的 关系 ,如 调控 关系 中 转录 因子 与 被 调控 基因 之 间 存 在 顺序 关系 的 ,因此 转录 调控 网 
络 是 有 向 网 络 ,而 基因 表达 相关 网 络 中 的 边 代表 的 是 两 个 基因 在 多 个 实验 条 件 下 表达 的 高 
相关 性 ,因此 是 无 向 的 。 
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图 8-1 网 络 分 类 图 
A. 无 向 网 络 ; B. 有 向 网 络 ;5C. 加 权 网 络 ; D. 二 分 网 络 


三 、 加 权 与 无 权 网 络 >> 


如 果 网 络 中 的 边 都 被 赋予 相应 的 数值 ,这 个 网 络 就 称 为 加 权 网 络 ( weighted network ), 所 
赋予 的 数值 称 为 边 的 权重 ,如 图 8-1C 所 示 。 权 重 可 以 用 来 描述 节点 间 的 距离 相关 程度 、 稳 
定 程 度 等 各 种 信息 ,含义 依赖 于 网 络 和 边 本 身 所 代表 的 意义 。 网 络 中 的 边 权重 是 网 络 中 普 
遍 存 在 的 一 种 现象 。 如 交通 网 中 ,连接 两 个 城市 (节点 ) 的 道路 ( 边 ) 一 般 具 有 不 同 的 长 度 ， 
而 在 蛋白 质 相互 作用 网 络 中 ,蛋白 质 之 间 相互 作用 有 强 弱 之 分 。 网 络 中 边 权 重 的 引入 可 以 
定量 的 分 析 网 络 系统 ,使 结果 精度 得 以 显著 提升 。 但 分 析 的 难度 和 计算 量 也 将 成 倍加 大 。 
因此 ,最 常用 的 网 络 仍然 是 无 权 网 络 。 如 果 网 络 中 各 边 之 间 没 有 区 别 , 可 以 认为 各 边 的 权重 
相等 , 称 为 无 权 网 络 ( unweighted network )。 


四 、 二 分 网 络 >> 


当 网 络 中 的 节点 能 够 分 为 两 个 互 不 相交 的 集合 ,并 且 所 有 的 边 都 由 不 同 集合 的 节点 之 
间 连 接 构成 时 , 称 这 样 的 网 络 为 二 分 网 络 ( bipartite network ), 如 图 8-1D 所 示 。 生 物 学 网 络 中 
二 分 网 络 的 现象 非常 普遍 。 例 如 ,药物 分 子 与 其 靶 和 蛋白 的 结合 关系 .疾病 与 疾病 基因 的 关系 、 
疾病 与 通路 关系 .转录 因子 与 靶 基 因 绑 定 关 系 、microRNA 与 靶 基 因 关 系 等 都 可 以 用 二 分 网 
络 模型 表示 和 分 析 。 
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一 、 蛋 白质 相互 作用 网 络 >> 


蛋白 质 相 互 作用 网 络 是 以 蛋白 质 作为 节点 ,参与 同一 代谢 途径 、 生 物 学 过 程 、 结 构 复 合 
体 功能 关联 或 蛋白 质 间 的 物理 接触 作为 边 的 网 络 ,如 图 8-2A 所 示 。 目 前 来 讲 , 蛋 白质 互 作 
网 络 是 被 研究 最 充分 的 生物 分 子 网 络 之 一 。 蛋 白质 是 组 成 生物 体 并 行使 生物 功能 的 重要 生 
物 大 分 子 。 蛋 白质 通过 相互 作用 构成 网 络 来 参与 生物 信号 传递 .基因 表达 调节 、 能 量 和 物质 
代谢 及 细胞 周期 调控 等 生命 过 程 的 各 个 环节 。 因 此 ,蛋白 质 互 作 网 络 对 于 理解 细胞 网 络 结 
构 及 功能 ,以 及 疾病 发 生发 展 的 基础 至 关 重 要 。 

研究 人 员 主 要 从 生物 实验 检测 和 计算 机 预测 两 个 角度 来 研究 蛋白 质 相 互 作用 。 实 
验 检 测 技术 主要 有 免疫 共 沉 淀 ( co-immunoprecipitation 人 酵母 双 杂 交 ( yeast two Hybrid, 
Y2H ) 和 串联 亲 和 纯 化 -质谱 ( tandem affinity purification — mass spectrometry, TAP-MS ) 
技术 。 免 疫 共 沉淀 技术 主要 是 在 自然 状态 下 ,利用 抗体 抗原 反应 (western 印 迹 法 ) 检测 
与 目标 蛋白 互 作 的 其 他 蛋白 ,由 此 确定 互 作 关系 。 它 是 当前 最 为 可 靠 的 蛋白 互 作 检测 技 
术 。 但 无 法 检测 短暂 时 间 不 稳定 的 蛋白 互 作 关系 ,另外 也 需要 预先 确定 待 检测 的 互 作 关 
系 用 于 准备 相应 的 抗体 ,因此 检测 的 效率 比较 低 , 从 而 无 法 应 用 于 大 规模 的 互 作 检测 。 
酵母 双 杂 交 技 术 是 根据 酵母 的 某 些 转录 因子 (如 CAL4 ) 拥有 DNA 结 合 域 和 转录 激活 结 
构 域 ,并 且 两 个 结构 域 空 间接 近 时 表现 转录 活性 的 特点 ,检测 蛋白 质 互 作 的 技术 。 通 过 
载体 转 染 、 表 达 融 合 蛋 白 .报告 基因 表达 等 步骤 ,判断 待 检测 蛋白 质 之 间 是 否 存在 互 作 关 
系 。 酵 母 双 杂 交 技 术 不 仅 用 来 研究 哺乳 动物 蛋白 质 之 间 的 互 作 关系 ,还 可 以 用 来 研究 高 
等 植物 蛋白 质 之 间 的 互 作 。 该 技术 的 优点 是 检测 通 量 高 ,但 缺点 是 检测 结果 的 假 阳性 互 
作 较 高 。 串 联系 和 纯化 -质谱 技术 首先 通过 免疫 共 沉 洗 反 应 或 串联 系 和 纯化 反应 得 到 含 
有 目的 蛋白 的 蛋白 质 复合 物 ,然后 用 质谱 分 析 或 蛋白 测序 来 鉴定 复合 体 的 各 个 组 分 。 该 
检测 技术 的 可 靠 性 高 于 酵母 双 杂 交 技 术 ,同时 检测 通 量 也 高 。 但 是 仍 不 适用 于 检测 瞬时 
的 蛋白 质 互 作 。 

随 着 生物 信息 学 方法 的 不 断 发 展 ,人 们 开发 了 许多 的 蛋白 质 互 作 预 测 技术 。 例 如 , 利 
用 蛋白质 同 源 性 预测 、 蛋 白质 结构 模式 等 方面 信息 预测 蛋白 质 互 作 。 此 外 ,也 出 现 了 Bayes 
网 络 等 机 器 学 习 技 术 整 合 多 种 数据 源 的 信息 ,预测 蛋白 质 互 作 的 网 络 技术 。 从 生物 实验 检 
测 和 计算 机 预测 获得 的 蛋白 质 相 互 作用 信息 的 快速 增长 ,产生 了 大 量 的 蛋白 质 互 作 数据 库 。 
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图 8-2 A 有 白质 相互 作用 网 络 ; B 基因 调控 网 络 


这 些 数据 库 构 成 了 最 为 庞大 的 生物 学 网 络 资源 。 这 些 资源 对 于 理解 生物 系统 中 蛋白 质 的 工 
作 原 理 , 了 解 疾病 等 特殊 生理 状态 下 生物 信号 反应 机 制 、 蛋 白 间 的 功能 联系 都 有 重大 意义 。 
下 面 列 出 了 一 些 常 被 人 们 使 用 的 数据 库 ,包括 : 

1. STRING( http: //string-db.org/ ) 数 据 库 “该 数据 库 中 不 仅 存储 了 已 知 实验 证 实 的 蛋白 
质 互 作 数据 ,还 存储 了 预测 的 蛋白 质 互 作 数据 。 这 些 互 作 包括 直接 物理 互 作 和 间接 互 作 (如 : 
功能 互 作 )。 这 些 信息 主要 来 源 于 四 个 主要 途径 ,包括 : 基因 组 信息 ,高通 量 实验 、 基 因 共 表 
达 信息 和 先 验 知识 。 目 前 该 数据 库存 储 了 来 自 于 1133 个 物种 的 互 作 信息 。 用 户 可 以 通过 网 
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络 查 询 工具 对 蛋白质 互 作 信息 进行 查询 ,也 可 以 对 互 作 信 息 进行 下 载 。 . 

2. BIND( http: //bind.ca/ ) 数据 库 ”该 数据 库 主要 记录 和 蛋白 质 互 作 在 内 的 生物 分 子 间 的 
相互 作用 信息 。 该 数据 库 内 收录 的 信息 分 为 经 过 人 工 检 测评 价 的 高 可 信 互 作 信息 和 高 通 量 
技术 得 到 的 互 作 信息 。 

3. HPRD( http: //www.hprd.org/ ) 数据 库 ”该 数据 库 仅 收录 人 类 数据 ,是 一 个 包含 了 蛋白 
注释 信息 ,蛋白 转录 后 修饰 以 及 蛋白 互 作 等 多 种 信息 的 人 类 综合 性 数据 库 。HPRD 数 据 库 已 
经 成 为 文献 挖掘 方法 获取 蛋白 互 作 及 转录 后 修饰 的 最 大 的 数据 库 之 一 。 

4. DIP( http: //dip.doe-mbi.ucla.edu/ ) 数据 库 ”该 数据 库 包 含 人 工 检查 评价 的 可 靠 互 作 

言 息 和 计算 预测 所 获取 的 高 通 量 数据 。 该 数据 库 中 支持 多 种 物种 。 

5. MIPS( http: //www.helmholtz-muenchen.de/en/mips/ ) 数据 库 ”该 数据 库 包 含 了 多 种 重 

白质 互 作 信息 、 其 中 蛋白质 复合 物 信息 较为 全 面 。 该 数据 库 也 支持 多 种 物种 。 





二 、 基 因 转 录 调 控 网 络 》》 


基因 转录 调控 网 络 是 以 转录 因子 和 受到 它们 调控 的 基因 作为 节点 ,以 这 些 节 点 间 的 调 
控 关 系 作 为 边 的 有 向 网 络 ,如 图 8-2B 所 示 。 通 过 获得 大 量 的 基因 转录 调控 数据 可 以 直接 构 
建 复杂 的 基因 转录 调控 网 络 。 网 络 中 的 边 可 以 依据 转录 因子 是 促进 还 是 抑制 受 调控 基因 的 
表达 ,分 为 正 调控 和 负 调 控 两 种 边 的 关系 类 型 。 

目前 检测 基因 调控 的 技术 已 比较 成 熟 , 主 要 包括 染色 质 免 疫 沉 演技 术 ( ChIP ) 和 在 此 基 
础 上 发 展 起 来 的 CNIP-chip 芯 片 及 ChIP-chip 等 技术 。ChIP 可 以 检测 体内 转录 因子 与 DNA 的 
动态 作用 。 与 体内 足迹 法 、DNA 芯 片 和 分 子 克隆 等 技术 相 结合 , ChIP 技 术 已 成 为 研究 DNA 
与 蛋白 质 相 互 作用 的 重要 方法 。ChIP-chip 芯 片 是 将 生理 状态 下 细胞 内 的 蛋白 和 DNA 结 合 
在 一 起 ,利用 超声 波 将 其 打 碎 ,然后 特异 性 地 富 集 目 的 蛋白 结合 的 DNA 片 段 和 纯化 检测 这 些 
片段 ,最 终 获得 蛋白 与 DNA 作 用 的 信息 。 另 外 , 微 阵列 技术 通过 关联 基因 之 间 的 表达 水 平 也 
可 推断 基因 调控 关系 。 随 着 这 些 技 术 的 发 展 ,在 短 时 间 内 可 获得 生物 体 基因 调控 的 海量 数 
据 ,这 为 研究 和 揭示 基因 及 其 产物 之 间 的 相互 关系 ,特别 是 基因 转录 的 调控 机 制 葛 定 了 基 
础 。 目 前 ,许多 数据 库 收集 了 大 量 的 基因 转录 调控 信息 ,一些 流 行 的 数据 库 包括 : 

1. TRANSFAC( http: //www.gene-regulation.com/pub/databases.html ) 数据 库 该 数据 库 
提供 转录 因子 以 及 它们 在 基因 组 上 的 结合 位 点 信息 。 该 数据 库 由 SITE、GENE、 FACTOR, 
CLASS、METHOD、REFERENCE 等 部 分 组 成 。 此 外 , TRANSFAC 数 据 库 还 与 几 个 扩展 库 如 
PATHODB、S/MARTDB、TRANSPATH、CYTOMER 库 密切 关联 。 

2. JASPAR( http: //jaspar.genereg.net/ ) 数据 库 ”该 数据 库 是 存储 了 真 核 生物 中 转录 因子 
和 DNA 结 合 位 点 的 最 全 面 的 数据 库 之 一 。JASPAR 包 括 核心 数据 库 和 其 他 几 个 子 数据 库 , 是 
一 个 非 元 余 的 数据 库 , 其 中 包含 的 数据 都 经 过 严格 的 筛选 ,具有 实验 条 件 。 

3. TRRD( http: //wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ ) 数据 库 ”该 数据 库 提 供 真 核 生物 基 
因 调 控 区 结构 ,功能 特性 信息 。 转 录 因 子 结合 位 点 .启动 子 ,增强 子 .静默 子 以 及 基因 表达 调 

4. COMPEL( http: //compel.bionet.nsc.ru/ ) 数据 库 ”该 数据 库存 储 了 许多 复合 转录 元 件 ， 
包括 不 同 转录 因子 在 位 置 关 系 上 紧密 相连 的 结合 位 点 ,结合 部 位 之 间 的 距离 和 先后 顺序 ,以 
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及 转录 因子 的 三 维 空间 结构 。 

5. TRED( http: //rulai.cshl.edu/cgi-bin/TRED/tred.cgi ? processchome ) 数据 库 ”该 数据 
库 是 一 个 转录 调控 元 件数 据 库 ,收集 了 实验 证 实 的 包含 人 类 、 小 鼠 , 大 鼠 物种 等 哺乳 动物 顺 
式 调 控 元 件 和 反 式 作用 因子 转录 因子 相关 数据 。 该 数据 库 不 仅 提供 转录 因子 结合 位 点 序 
列 信息 ,还 提供 转录 因子 结合 位 点 的 基因 组 定位 信息 。 数 据 经 过 人 工 校正 ,实验 证 实 ,具有 
一 定 可 靠 性 ,这 些 数据 完全 公开 。 








三 .代谢 和 信号 传导 网 络 》》 


细胞 内 代谢 物 在 酶 的 作用 下 转化 为 新 的 代谢 物 过 程 中 发 生 的 一 系列 的 生物 化 学 反应 
形成 了 代谢 通路 ( metabolic pathway )。 葡萄 糖 代 谢 就 是 一 个 典型 的 代谢 通路 ,如 图 8-3 所 示 。 
这 样 的 代谢 通路 可 以 自然 地 表示 作 代 谢 网 络 。 与 其 他 的 代谢 通路 的 联合 又 会 形成 更 大 的 
代谢 网 络 。 代 谢 网 络 包 含 代谢 子 、 酶 等 生物 分 子 之 间 的 多 种 生理 和 化 学 反应 , 酶 和 代谢 子 
在 网 络 中 可 能 多 次 出 现 , 一 个 节点 也 可 能 对 应 多 个 生物 分 子 , 因 此 代谢 网 络 与 蛋白 质 互 作 
网 络 等 其 他 生物 分 子 网 络 相 比 具有 更 大 的 复杂 性 。 网 络 属于 复杂 的 超 图 模型 范畴 。 人 们 
往往 为 了 简化 网 络 的 复杂 性 ,根据 研究 目的 构建 不 同 层次 的 代谢 网 络 。 当 研究 者 不 关心 代 
谢 反 应 中 的 酶 和 其 他 一 些 如 提供 能 量 与 磷酸 键 的 ATP 等 的 共 反 应 因子 ,就 可 以 将 网 络 转化 
为 只 包含 主要 代谢 底 物 指向 主要 产物 的 代谢 子 网 络 。 甚 至 忽略 反应 方向 的 情况 也 经 常 被 许 
多 研究 者 采用 。 基 因 组 学 和 和 蛋白质 组 学 的 发 展 更 使 得 研究 者 经 常 将 代谢 网 络 简化 为 强调 基 
因 和 酶 的 网 络 ,而 弱化 代谢 子 。 一 种 常用 的 方法 是 转化 代谢 通路 为 以 酶 为 节点 , 酶 和 酶 之 间 
如 果 通 过 生化 反应 直接 共享 至 少 一 个 代谢 子 ,那么 它们 之 间 连 接 一 条 边 。 进 一 步 ,通过 获 
得 基因 编码 酶 的 信息 ,可 以 将 网 络 转化 为 基因 网 络 。 除 了 这 些 ,还 有 许多 简化 方法 被 研究 
者 广泛 使 用 。 目 前 ,一 些 软 件 也 可 人 处理 代谢 通路 数据 网 络 简化 ,如 基于 R 语 言 的 两 个 软件 包 
iSubpathwayMiner( http: //cran.r—project.org/package= iSubpathwayMiner ) 和 KEGGgraph( http: // 
bioconductor.org/packages/2.4/bioc/htm//KEGGgraph.html ) 提供 了 多 种 方便 的 通路 简化 方法 。 

细胞 通过 将 生物 信号 或 刺激 转换 为 其 他 生物 信号 最 终 激活 细胞 反应 的 过 程 形 成 了 信和 号 
传导 ( signal transduction ), 信 和 号 传导 的 过 程 中 多 个 生物 分 子 在 酶 作用 下 按照 一 定 顺序 发 生 一 
系列 生理 化 学 反应 ,由 此 形成 信号 传导 通路 ( signal transduction pathway )。 与 代谢 通路 相似 ， 
信号 传导 通路 可 以 自然 的 表示 作 信 号 传导 网 络 。 网 络 同样 属于 复杂 的 超 图 ,并 且 网 络 中 边 
的 种 类 非常 多 。 如 图 8-4 所 示 , JAK-STAT 信 号 通路 中 包含 了 激活 .磷酸 化 \, 泛 素 化 等 多 种 信 
号 作用 信息 。 

代谢 网 络 和 信号 传导 网 络 是 研究 和 分 析 代 谢 和 信号 传导 过 程 ,疾病 的 发 生发 展 机 制 的 
重要 工具 。 随 着 基因 组 学 .转录 组 学 蛋白 质 组 学 和 代谢 组 学 新 的 生物 检测 技术 的 开发 ,人 
们 对 生物 细胞 内 生化 反应 的 理解 程度 正在 不 断 加 深 ,各 种 代谢 和 信号 通路 数据 也 正 以 极 快 
的 速度 增加 。 这 些 信 息 是 构建 代谢 网 络 与 信号 传导 网 络 的 基础 。 目 前 这 些 信息 被 收集 和 整 
理 到 一 些 重要 的 通路 数据 库 当 中 ,主要 的 通路 数据 库 包括 : 

1. KEGG 数 据 库 ( http: //www.genome.jp/kegg/ ) 该 数据 库 是 关于 基因 、 和 蛋白 、 酶 、 代 谢 
子 药物 .生化 反应 以 及 通路 的 综合 生物 数据 库 。 该 数据 库 实际 由 多 个 子 数据 库 构 成 。 最 
著名 的 当 属 通路 ( KEGG PATHWAY ) 子 数据 库 。 它 是 目前 最 被 广泛 使 用 的 通路 数据 库 。 
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图 8-4 KEGG 数 据 库 中 的 JAK 一 STAT 信 号 通路 


第 八 章 ”生物 分 子 网 络 与 通路 339 
CHAPTER 8 BIOLOGY MOLECULAR NETWORK AND PATHWAY 


其 中 包含 有 上 千 个 物种 的 代谢 与 信号 传导 通路 信息 。 这 些 信息 从 生物 学 实验 和 文献 中 提 
取 , 并 经 过 人 工 校 正 。 实 时 更 新 的 管理 模式 也 使 得 人 们 能 够 从 该 数据 库 获得 最 新 的 通路 
数据 。 

2. Reactome 数 据 库 ( http: //www.reactome.org/ ) 该 数据 库 是 一 个 含 多 物种 信息 的 通路 数 
据 库 ,存储 了 大 量 的 代谢 通路 信息 及 生化 反应 信息 ,这 些 信 息 从 生物 学 实验 和 文献 中 提取 ， 
并 经 过 人 工 校正 。 该 数据 库 中 所 有 的 生物 过 程 中 的 反应 以 分 层次 的 方式 组 织 起 来 的 , 较 低 
的 层次 对 应 着 反应 , 较 高 的 层次 代表 着 通路 。 

3. WikiPathways 数 据 库 ( http: //wikipathways.org/ ) 该 数据 库 是 一 个 开放 的 共同 协作 的 
通路 数据 库 平 台 。 该 数据 库 平 台 人 允许 任何 人 创建 新 的 通路 数据 ,并 由 专业 的 生物 学 家 进行 
校正 ,因此 该 数据 库 对 现 有 通路 数据 库 如 KEGG, Reactome 等 进行 了 补充 。 虽 然 目 前 还 不 够 
强大 ,但 该 数据 库 的 共同 协作 模式 将 极 大 地 改善 通路 数据 的 规模 和 质量 。 

4. Pathway commons 数 据 库 ( http: /www.pathwaycommons.org/ ) 该 数据 库 是 一 个 包含 了 
生物 通路 信息 及 和 蛋白 互 作 信息 的 多 物种 综合 数据 库 。 它 包含 了 来 自 Reactome 、HumanCyc、 
HPRD 等 多 个 数据 库 的 信息 ,因此 可 以 作为 获得 公共 通路 数据 库 通路 信息 的 一 个 接口 使 用 。 

5. PID 数 据 库 ( http: //pid.nci.nih.gov/ ) 该 数据 库 是 人 类 细胞 信号 通路 数据 库 , 存 储 了 
大 量 的 信号 通路 和 关键 的 反应 以 及 各 种 分 子 互 作 。PID 中 包含 了 三 个 不 同 来 源 的 数据 ,第 一 
个 来 源 是 由 NCI 组 织 校正 的 通路 ,这 种 通路 是 从 同行 评议 的 文献 中 获得 的 ; 第 二 个 来 源 来 自 
Reactome 数 据 库 ,第 三 个 来 源 由 KEGG 数 据 库 提供 。 





四 、 衍 生 网 络 》》 


除了 上 面 介绍 的 几 种 常见 生物 分 子 网 络 外 ,还 有 一 些 在 它们 的 基础 上 衍生 出 来 的 生物 
网 络 。 例 如 疾病 基因 网 络 ,疾病 通路 网 络 .药物 通路 网 络 等 。 这 些 衍生 网 络 都 是 利用 基础 网 
络 信息 和 基本 数据 库 资源 构建 出 的 新 型 网 络 ,适用 于 分 析 各 种 具体 的 生物 学 问题 , 下面 我 们 
简要 介绍 几 种 衍生 网 络 。 


(一 ) 疾病 基因 网 络 


遗传 异 质 性 和 基因 多 效 性 是 很 常见 的 生物 学 现象 。 疾 病 的 发 生发 展 通常 是 由 多 基因 突 
变 造成 的 。 随 着 实验 技术 的 发 展 , 人 们 对 疾病 的 认识 以 及 各 类 疾病 与 致 病 基 因 之 间 的 关系 
的 广泛 理解 ,产生 了 复杂 的 人 类 疾病 与 基因 之 间 的 关系 。 疾 病 基因 网 络 可 以 从 全 局 的 角度 
来 分 析 人 类 疾病 和 致 病 基因 之 间 的 复杂 关系 。 

为 了 构建 疾病 基因 网 络 ,我 们 可 以 从 疾病 相关 数据 库 , 例 如 OMIM( 人 类 备 德 尔 遗 传 在 线 ) 
数据 库 中 获得 人 类 疾病 和 疾病 基因 的 相关 信息 ,经 过 一 定 的 筛选 处 理 后 ,得 到 了 疾病 和 基因 
数据 ,然后 将 被 证 实 的 疾病 和 基因 作为 节点 ,疾病 和 基因 关系 作为 边 ,这 样 就 构成 了 人 类 疾 
病 基 因 网 络 .如 图 8-5A 所 示 ,网络 中 国 形 代表 人 类 相关 疾病 ,方形 代表 相应 的 致 病 基因 。 人 类 
疾病 基因 网 络 跟 其 他 的 基本 网 络 一 样 ,可 以 分 析 网 络 的 基本 性 质 ,对 该 网 络 进行 功能 聚 类 、 
模块 化 等 基本 的 网 络 分 析 。 可 以 研究 疾病 基因 在 疾病 发 生发 展 过 程 中 所 起 的 作用 以 及 从 
全 局 的 角度 分 析 某 一 种 具体 疾病 或 致 病 基因 在 网 络 中 的 交互 作用 ,可 以 使 我 们 加 深 对 疾病 
基因 在 致 病 过 程 中 生物 学 作用 的 理解 以 及 从 更 全 面 的 角度 解释 了 疾病 的 发 生 和 发 展 过 程 。 
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图 8-5 A 疾病 基因 网 络 示意 图 ; B 疾病 通路 网 络 示意 图 


(二 ) 疾病 通路 网 络 

基因 或 蛋白 质 并 不 是 孤立 的 ,他 们 通过 互 作 形成 代谢 、 调 控 等 网 络 来 行使 生物 学 功能 
的 ,各 种 各 样 的 通路 网 就 是 这 些 网 络 的 典型 代表 ,同样 通路 在 发 育 \ 生 长 ,衰老 和 死亡 等 一 系 
列 生物 学 过 程 中 起 了 关键 的 作用 。 随 着 通路 信息 的 逐渐 完善 ,人 们 逐渐 用 各 种 方法 从 通路 
的 角度 来 分 析 疾 病 ,并 发 现 通 路 在 疾病 的 起 始 、 进 展 和 转化 等 过 程 中 起 了 至 关 重 要 的 作用 。 
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当然 ,构建 出 一 个 全 局 的 疾病 通路 网 络 是 从 整体 上 分 析 疾 病 与 相关 通路 复杂 关系 的 重要 
方法 。 

我 们 可 以 从 疾病 数据 库 ( 如 OMIM ) 和 通路 数据 库 ( 如 KEGG ) 分 别 获得 疾病 基因 信息 和 
通路 基因 信息 ,然后 将 每 个 疾病 的 所 有 疾病 基因 分 别 做 基因 富 集 分 析 。 显 著 的 富 集 通路 ( 如: 
p«0.01 ) 与 该 疾病 就 可 以 建立 关联 关系 ,最 终 构 成 疾病 通路 网 络 ,图 8-5B 为 疾病 通路 网 络 示 
意图 ,在 网 络 中 共有 两 类 节点 ,三 角形 代表 通路 信息 , 圆 形 代表 疾病 , 边 相 连 代 表 着 该 疾病 的 
发 生发 展 和 这 条 通路 相关 ,这 样 的 网 络 能 够 显示 了 人 类 各 种 疾病 和 疾病 相关 通路 之 间 的 复 
杂 关 系 ,通过 对 该 疾病 通路 网 进行 网 络 分 析 ,我 们 能 全 局 性 的 了 解 各 种 通路 以 及 在 疾病 的 发 
生发 展 中 一 些 规 律 ,对 人 类 疾病 的 机 制 解 释 和 治疗 有 着 指导 意义 。 我 们 将 在 本 章 第 五 节 中 
提供 一 个 实例 ,进一步 利用 网 络 分 析 技 术 更 精细 的 构建 和 分 析 疾 病 -通路 网 络 。 


(三 ) 药物 通路 网 络 


药物 的 多 靶 点 ,多 效应 多 途径 等 特性 给 药物 的 开发 和 研制 带 来 了 很 大 的 困难 ,人 们 也 
渐渐 地 发 现 大 多 数 药物 并 不 是 作用 于 单个 蛋白 或 基因 产物 而 发 挥 功能 的 ,药物 发 挥 药 效 作 
用 的 过 程 相当 复杂 ,近年 来 ,人 们 把 药物 研究 的 视野 逐渐 转向 通路 ,力求 从 通路 的 角度 探讨 
药物 的 相关 问题 , 跟 疾病 通路 网 络 一 样 ,药物 通路 网 络 可 以 作为 一 个 从 通路 的 角度 出 发 研究 
药物 的 作用 机 制药 效 以 及 副作用 等 问题 的 重要 方法 。 同 样 ,我 们 可 以 从 多 种 数据 库 ( CMap 
数据 库 、DrugBank 数 据 库 和 KEGC 数 据 库 等 ) 中 获取 通路 和 药物 相关 信息 ,例如 CMap 数 据 库 
就 提供 了 每 种 小 分 子 药物 影响 下 的 基因 表达 谱 , 从 这 样 的 数据 中 可 以 得 到 许多 药物 信息 和 
每 种 药物 影响 的 基因 信息 ,与 疾病 通路 网 络 类 似 , 如 果 一 种 药物 所 影响 的 基因 能 显著 富 集 在 
一 个 通路 上 ,那么 就 把 这 个 药物 和 这 个 通路 连接 起 来 ,对 于 所 有 的 药物 和 通路 来 说 ,就 构建 
出 药物 通路 网 络 。 我 们 可 以 从 中 探寻 两 个 同类 药物 (或 两 种 不 同 药物 ) 与 通路 的 连接 情况 ， 
同样 也 可 以 研究 多 个 通路 被 单个 或 药物 联合 调控 的 现象 。 总 之 ,结合 药物 的 多 靶 点 、 多 功能 
等 特性 ,药物 通路 网 络 可 以 从 全 局 上 以 通路 的 角度 分 析 药 物 作 用 过 程 中 的 特征 与 性 质 , 为 实 
验 人 员 和 药物 开发 者 提供 了 很 好 的 思路 ,为 新 药 的 开发 和 研制 商定 了 一 定 的 基础 。 








第 三 节 
生物 分 子 网 络 分 析 方 法 


Section 3 Analysis Methods of Biology Molecule Network 
一 、 网 络 的 拓扑 属性 分 析 >> 


网 络 的 拓扑 属性 通过 考察 节点 或 边 结构 特征 来 描述 网 络 全 局 及 局 部 的 特性 ,能 够 对 网 
络 进 行 初步 探索 。 更 重要 的 是 ,这 些 属性 构成 了 深入 分 析 网 络 的 基本 框架 。 通 过 进一步 结 
合生 物 学 信息 和 生物 系统 特点 ,网 络 的 拓扑 属性 能 够 对 深入 理解 生物 系统 及 疾病 的 生物 学 
机 制 起 到 关键 的 作用 。 下 面 介绍 一 些 基本 的 网 络 拓扑 属性 分 析 测 度 。 

(一 ) 连通 度 

连通 度 或 度 ( degree ) 是 节点 最 基本 的 拓扑 属性 。 某 节点 的 度 定义 为 网 络 中 直接 与 该 节 
点 相连 的 所 有 边 的 数目 ,例如 在 图 8-6A 中 节点 A 的 连通 度 为 5。 如 果 网 络 是 有 方向 的 ,我 们 
通常 还 要 定义 两 个 不 同 的 连通 度 的 度量 方式 称 为 入 度 和 出 度 。 入 度 表 示 网 络 中 直接 指向 该 
节点 的 所 有 边 的 数目 ,相反 ,出 度 表 示 网 络 中 该 节点 直接 指向 其 他 节点 的 所 有 边 的 数目 , 例 
如 在 图 8-6B 中 节点 A 的 入 度 为 3 ,出 度 为 2。 在 本 章 中 ,我 们 用 符号 k 表 示 连 通 度 ,kw 表示 出 度 ， 
ki 表示 和 人 度 。 连 通 度 是 非常 重要 的 拓扑 属性 。 尤 其 连通 度 高 的 节点 ,我 们 称 之 为 中 心 节点 
Chub ), 即 hub 节 点 ,与 各 类 分 子 生物 学 功能 疾病 发 病 机 制 等 密切 相关 。 瘤 症 相关 的 基因 也 
往往 是 hub 节 点 。 在 蛋白 质 互 作 网 络 中 ,必需 基因 的 翻译 产物 往往 具有 非常 高 的 连通 度 。 
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图 8-6 网 络 拓扑 属性 的 图 例 描述 


(二 ) 聚 类 系数 


对 于 无 向 网 络 来 说 ,如 果 节 点 vi 连接 节点 vi, 节 点 vw 连接 于 节点 v3, 那么 节点 vi 与 节点 vi 是 
否 也 会 相连 接 ? 二 者 连接 的 可 能 性 有 多 大 ? 衡量 网 络 中 的 这 种 现象 的 程度 ,可 以 使 用 聚 类 
系数 CC( clustering coefficient )。 它 能 够 测量 部 分 节点 间 存 在 的 密切 连接 程度 。 无 向 网 络 中 ， 


n 2n 
CC, =— = 





公式 中 n 代 表 节 点 v 的 所 有 k 个 直接 邻居 间 存 在 的 所 有 边 的 数目 。 因 为 的 最 大 数目 可 以 


由 邻居 节点 的 两 两 组 合 数 Ci = k (k 一 2 来 确定 ,因此 CC 值 的 取 值 范围 在 [0,1] 区 间 。 如 图 
8-6A 所 示 ,节点 A 有 5 个 邻居 {B, C, D, G, H) ,邻居 间 仅 仅 有 一 条 边 连 接 , 所 以 节点 A 的 聚 类 系 
"MAE -1 
^ 5x(5-D 10 
对 于 有 向 网 络 , 因 为 两 个 节点 之 间 人 允许 存在 方向 相反 的 边 , 此 时 聚 类 系数 被 标准 化 为 : 
n n 
ui li P E E (Kou -1) ( 8-2 ) 


公式 中 代表 v 的 出 度 , za 代表 所 有 v 所 连接 的 节点 相互 之 间 存 在 的 边 数 。 在 图 8-6B 
0 





中 ,节点 A 连 接 2 个 节点 G 和 H, 其 间 不 存在 连 边 , 则 节点 A 的 聚 类 系数 为 CC。、 re " 
而 对 于 节点 C 出 度 也 为 2, 连接 节点 B 和 A, 其间 存 在 一 条 边 {B 一 A}, 其 聚 类 系数 为 
ii zm 

(=) TÄ 


节点 的 介 数 (betweenness ) 是 该 节点 出 现在 其 他 节点 间 最 短路 径 中 的 比例 。 介 数 越 高 ， 
意味 着 在 保持 网 络 紧 密 连接 性 中 节点 越 重 要 。 节 点 v 的 介 数 B, 定 义 为 : 


Bu a (8-3) 


i* j*veV O; 
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其 中 ,o, 指 节点 i 到 j 的 最 短路 径 的 数目 ,o, 表 示 其 中 通过 节点 vy 的 路 径 数 目 。 两 节点 间 的 
最 短路 径 指 连接 它们 的 所 有 路 径 中 最 短 的 路 径 。 例 如 在 图 8-6B 中 节点 C 到 节点 G 的 路 径 有 
1={C, B, A,G} 和 ],={C, A,G}, 但 最 短路 径 为 ,={C, A, CG}. 

(四 ) 直径 

网 络 的 直径 ( diameter ) 是 所 有 连通 节点 之 间 最 短路 径 长 度 的 最 大 值 。 网 络 的 直径 代表 
着 整个 网 络 紧 密 的 程度 ,是 衡量 网 络 总 体 性 质 的 指标 。 

(五 ) 平均 距离 

网 络 的 平均 距离 ( average distance ) 是 指 网 络 中 所 有 连通 节点 之 间 最 短路 径 长 度 的 平均 
值 ,同样 用 于 代表 整个 网 络 的 紧密 程度 。 

(六 ) 桥梁 中 心性 


前 面 几 个 网 络 拓扑 属性 ,包括 度 、 介 数 和 聚 类 系数 都 是 反映 了 节点 在 整个 网 络 中 的 中 心 
地 位 ,而 桥梁 中 心性 不 仅 能 够 反映 节点 在 网 络 中 的 全 局 中 心 位 置 ,同时 还 考虑 了 在 网 络 中 的 
局 部 特征 。 节 点 的 桥梁 中 心性 测度 是 介 数 中 心性 和 桥梁 系数 的 产物 。 对 于 网 络 中 的 节点 v， 
其 桥梁 中 心性 定义 为 如 下 公式 : 








Cr(v)=BC(v) x CB( v) ( 8-4) 
其 中 , BCCv ) 表 示 节 点 v 的 介 数 ,如 式 8-3, CBC v ) 表 示 节 点 v 的 桥梁 系数 , 某 节点 的 桥梁 
系数 决定 了 该 节点 处 于 连接 度 很 高 的 节点 间 的 程度 ,定义 方式 如 下 : 


d(v) 
safe) ME (8-5) 
N MM, vt 
ua (50) 
dC v ) 表 示 节 点 v 的 度 , NC v ) 表示 节 点 v 的 邻居 节点 集合 ,桥梁 系数 评估 了 邻居 间 的 局 部 桥 


特征 。 

C,( v ) 值 越 高 预示 着 有 越 多 的 信息 会 经 由 节点 v。 如 图 8-6C 所 示 , 节 点 E、B、D 的 桥梁 中 
心性 都 很 高 其 中 节点 E 最 高 Cr( E )=0.45。 

将 这 些 桥 梁 中 心性 值 高 的 节点 称 为 桥 节 点 ,这 些 桥 节点 位 于 网 络 当中 聚集 性 相对 较 高 
的 各 个 模块 之 间 。 总 体 来 说 ,桥梁 中 心性 不 仅 考 虑 了 节点 在 网 络 中 的 全 局 中 心 位 置 ,同时 还 
考虑 了 在 网 络 中 的 局 部 特征 。 


(七 ) 易 损 性 

网 络 中 某 个 节点 对 于 整个 网 络 的 连通 性 贡献 有 多 大 ? 如果 将 某 节 点 删除 ,是 否 会 对 整 
个 网 络 信息 交流 有 影响 ”影响 有 多 大 ? 易 损 性 能 够 衡量 某 节 点 对 整个 网 络 的 信息 传递 影响 
程度 。 具 体 地 ,利用 网 络 的 全 局 特性 来 计算 某 节 点 对 网 络 损坏 的 程度 。 网 络 全 局 特性 是 指 
网 络 节点 间 信 息 传递 的 效能 ,用 下 面 的 公式 来 计算 : 


1 1 
i 
NUNCIJ ŠT, (8-6) 


iej “ij 


第 八 章 生物 分 子 网 络 与 通路 345 一 


CHAPTER 8 BIOLOGY MOLECULAR NETWORK AND PATHWAY 


其 中 , dA Ais exo RL ee, N 表 示 网 络 中 节点 的 数目 。 
如 果 将 节点 v 从 网 络 中 删除 ,那么 整个 网 络 的 信息 传输 能 力 的 破坏 程度 表示 为 : 
V=( E-E, )/E (8-7) 
Hp, Ext 148 85 A Jor BE , LANA Sa A AE. VRR , Fe 
除 节 点 v 后 整个 网 络 节点 间 的 信息 传输 能 力 下 降 的 越 大 ,如 果 这 类 节点 被 删除 了 ,那么 整个 
网 络 中 信息 传输 的 效能 必然 会 变 差 。 如 将 图 8-6C 中 的 节点 A 删除 后 ,整个 网 络 将 被 分 割 为 
了 两 部 分 ,信息 交流 效率 将 变 差 。 





二 、 网 络 的 无 尺度 特性 分 析 >> 


无 尺度 网 络 ( scale-free network ) 指 网 络 中 度 的 分 布 符合 窜 率 分 布 , 即 p(k)~k “的 网 络 。 
如 图 8-7A 所 示 ,为 一 个 止 形 的 曲线 。 当 将 坐标 转化 为 对 数 ( log ) 坐 标 系 后 ,分布 接 近 为 直线 ， 
如 图 8-7B 所 示 。 因 此 ,无 尺度 网 络 中 大 部 分 节点 的 连通 度 较 低 ,少数 连通 度 非常 高 的 节点 使 
网 络 连接 在 一 起 。 无 尺度 网 络 的 网 络 直径 相对 较 小 ,通常 直径 的 大 小 正比 于 网 络 中 节点 数 
目的 对 数值 的 对 数值 , 即 log( log( V ))。 这 样 直径 小 的 网 络 俗称 小 世界 网 络 。 


节点 数 
节点 数 (对 数 坐标 ) 


连通 度 连通 度 (对 数 坐标 ) 
A B 


图 8-7 无 尺度 网 络 度 的 分 布 


许多 自然 状态 下 的 网 络 ,如 互联 网 和 人 际 关系 网 络 ,都 是 无 尺度 网 络 。 生 物 系 统 中 ,无 
尺度 网 络 现象 更 加 普遍 。 为 了 解释 无 尺度 网 络 为 何 会 成 为 生物 分 子 网 络 的 主要 展现 形式 ， 
Barab&si 和 Albert 提 出 了 构建 了 形成 无 尺度 网 络 的 Barab&si-Albert 模 型 。 根 据 这 一 模型 ,人 研 
究 者 模拟 出 蛋白 质 网 络 中 出 现 无 尺度 特性 的 原因 源 于 基因 复制 。 高 度 连接 的 节点 倾向 于 与 
发 生 复制 的 基因 产物 发 生 互 作 , 从 而 获得 额外 的 连接 。 这 符合 无 尺度 网 络 的 两 个 特点 : 成 长 
( growth ) 和 优先 连接 ( preferential attachment )。 

成 长 性 展现 无 尺度 网 络 可 以 扩充 规模 。 如 网 页 的 快速 增加 。 优 先 连接 表明 网 络 的 
节点 具有 连接 的 优先 级 的 区 别 ,往往 最 初 度 大 的 节点 可 以 在 网 络 增长 时 形成 更 多 的 连 
接 。 如 ,著名 的 网 站 ,更 倾向 于 连接 更 多 的 网 页 和 被 其 他 新 网 站 连接 。 因 此 ,利用 成 长 
性 和 优先 连接 性 质 可 知 , 度 高 的 节点 (hub ) 更 倾向 于 是 早期 节点 。 研 究 表 明 , 大 肠 埃 希 
菌 代 谢 网 络 中 度 高 的 几 种 分 子 ,的确 是 最 古老 的 代谢 路 径 的 一 部 分 ,而 且 它 们 的 进化 历 
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史 悠 入 。 基 因 复 制 很 可 能 使 得 生物 网 络 成 长 并 进行 优先 连接 ,最 终 形成 生物 网 络 无 尺度 
网 络 。 

另外 ,无 尺度 网 络 具 有 强 韧性 , 即 对 意外 故障 的 抵抗 能 力 强 。 例 如 ,在 计算 机 网 络 随 
机 破坏 个 别 的 节点 不 会 导致 网 络 大 面积 的 瘫痪 。 人 体内 基因 也 会 随机 的 产生 异常 突变 ， 
但 大 多 不 会 致死 。 正 是 因为 无 尺度 网 络 大 多 数 节点 具有 和 较 小 的 度 , 随 机 损坏 的 个 别 节点 
往往 是 不 重要 的 节点 。 因 此 ,破坏 网 络 的 能 力 非常 有 限 , 体 现在 致 病 但 不 致死 。 对 因特网 
和 细胞 而 言 , 强 韧性 使 得 网 络 能 够 应 付 随机 出 现 的 异常 。 但 是 ,生物 学 实验 也 显示 ,去 除 
那些 度 高 的 和 蛋白质, 经 常 导致 细胞 死亡 。 这 说 明 , 无 尺度 网 络 对 hub 节 点 的 依赖 ,可 能 既 有 
THREE BE 





三 、 网 络 的 模 序 搜索 >>> 


网 络 模 序 ( motif ) 是 指 一 类 特殊 的 子 网 模式 , 即 一 组 节点 按照 特定 的 顺序 连接 而 成 
的 结构 ,这 类 子 网 模式 在 网 络 中 出 现 次 数 远 超 过 随机 情况 。 在 生物 学 网 络 中 ,包含 有 大 
量 的 这 些 特 殊 的 网 络 模 序 ,搜索 这 些 模 序 可 以 深入 理解 生物 网 络 执行 生物 功能 的 基本 形 
式 , 发 现 功能 元 件 的 功能 关联 关系 。 在 有 向 网 络 中 ,人 们 发 现 了 基因 调控 网 络 的 前 馈 环 
(feed-forward loop ), 自 调控 环 (auto-regulator loop ) 和 单 输入 模 序 ( single input motif ) 
等 一 些 非 常 重要 的 模 序 。 在 许多 物种 中 ,前 馈 环 模 序 是 一 种 非常 常见 的 生物 调控 模式 。 
如 图 8-8A 所 示 ,前 馈 环 的 一 个 例子 : 转录 因子 A 调 控 转 录 因 子 B 和 基因 C ,而 当 转录 因子 
B 也 调控 基因 C 时 , A、B 和 C 形 成 前 馈 环 结 构 。 自 调控 环 如 图 8-8B、C 所 示 , 由 于 调控 机 制 
可 以 为 正 向 和 负 向 , 自 调控 环 有 2 种 不 同 的 类 型 。 单 输入 模 序 由 同一 个 转录 因子 同时 调 
控 许多 基因 表达 ,而 转录 因子 通常 具有 自 调 控 性 ,所 有 调控 方向 都 相同 , 且 受 调控 基因 
不 再 受到 其 他 元 件 的 调控 ,如 图 8-8 D 所 示 。 该 模 序 经 常 出 现在 大 肠 埃 希 菌 (E.Coli ) 代 
谢 通 路 相关 的 调控 中 。 除 上 述 模 序 外 ,研究 者 们 还 发 现 了 许多 其 他 的 模 序 , 如 密集 重生 
调控 ( dense overlapping regulation )、 多 输入 模 序 ( multi input motif ) 和 调控 链 ( regulator 


chain ) 等 。 
E 
A B 
o 
e: Coe 
C D 


图 8-8 ”网络 模 序 示意 图 
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网 络 模 序 结构 代表 了 特定 的 转录 调控 机 制 ,对 这 些 模 序 的 研究 能 够 帮助 人 们 了 人 解 生 
物 过 程 的 控制 机 制 ,因此 研究 者 们 开发 了 网 络 模 序 搜索 算法 来 实现 在 网 络 中 寻找 与 模 序 
结构 同 构 的 子 网 过 程 ,以 发 现 网 络 模 序 。 基 本 的 搜索 方法 是 首先 定义 包含 k 个 节点 子 网 模 
式 ; 然后 搜索 网 络 内 全 部 Ch 个 包含 k 个 节点 的 节点 子 集 ( N 代 表 网 路 的 节点 总 数 ), 并 记录 
结构 与 所 搜寻 的 模式 相符 的 次 数 ; 最 后 ,将 各 个 模式 在 真实 网 络 中 出 现 的 次 数 和 在 随机 网 
络 中 所 出 现 的 次 数 进行 比较 ,从 而 发 现 真实 网 络 中 出 现 次 数 远 超过 随机 情况 的 网 络 模 序 。 
由 于 搜索 算法 非常 耗 时 ,目前 网 络 模 序 的 搜索 往往 只 针对 一 些 较 小 的 子 网 模式 来 进行 
分 析 。 

Mfinder 和 MAVisto 是 两 款 搜索 网 络 模 序 的 软件 , mfinder ( http: //www.weizmann.ac.il/mcb/ 
UriAlon/groupNetworkMotifSW.html ) 需要 通过 命令 行 的 形式 进行 操作 , 而 MAVisto( http: // 
mavisto.ipk-gatersleben.de/ ) 则 包含 了 一 个 图 形 界 面 。 两 款 软件 均 可 以 设 定 特定 的 网 络 模 序 
规模 并 设计 随机 扰动 以 获取 相应 模 序 出 现 频率 的 显著 性 。 





四 、 网 络 的 功能 模块 识别 》》》 


细胞 内 的 分 子 通常 以 模块 化 的 形式 行使 功能 。 虽 然 网 络 模块 ( network module ) 没 
有 一 种 严格 的 定义 ,但 通常 网 络 模块 是 指 在 物理 位 置 和 功能 上 紧密 联系 的 一 组 节点 。 如 
生物 网 络 中 的 一 组 生物 分 子 。 一 个 复杂 的 网 络 系统 中 经 常 包含 很 多 模块 ,例如 在 社会 网 
络 中 ,人 类 往往 会 以 各 种 兴趣 、 爱 好 和 关系 等 结 成 各 种 团体 。 在 人 类 的 工业 化 生产 中 ， 
也 往往 有 意识 地 采用 模块 化 设计 。 小 到 移动 电话 、 个 人 电脑 ,大 到 航天 器 械 的 设计 都 采 
用 着 模块 化 的 设计 提高 工程 效率 和 稳定 性 。 生 物 学 的 网 络 系统 也 包含 各 种 模块 化 现象 。 
例如 和 蛋白 质 往 往 结合 成 复合 物 来 行使 生物 学 功能 ,而 蛋白 质 与 核酸 分 子 所 组 成 的 复合 物 
在 从 核酸 合成 到 蛋白 质 降 解 的 生物 基本 功能 中 都 发 挥 了 重要 的 作用 。 在 生物 应 激 反应 
过 程 中 ,共同 调控 的 生物 分 子 也 协同 完成 使 生物 体 适应 内 外 环境 变化 的 生物 功能 。 这 一 
部 分 ,我们 将 介绍 从 网 络 中 发 现 模块 的 方法 和 衡量 网 络 模块 化 程度 的 方法 。 依 赖 于 网 络 
研究 领域 ,网 络 模块 识别 一 般 也 可 以 称 为 网 络 聚 类 和 图 划分 。 在 本 章 中 ,我 们 将 不 区 分 


(一 ) 连通 组 分 模块 


网 络 中 如 果 两 个 节点 间 能 够 由 一 条 路 径 连接 , 则 称 这 两 个 节点 是 连通 的 。 所 有 能 够 彼 
此 连通 的 节点 和 它们 之 间 的 边 构 成 了 一 个 连通 组 分 。 计 算 网 络 的 所 有 连通 组 分 , 即 连通 子 
图 。 每 个 连通 组 分 形成 一 个 连通 组 分 ( connected components ) 模块 。 例 如 ,对 于 图 8-9 所 示 
网 络 来 说 ,有 两 个 连通 组 分 模块 。 这 是 最 简单 的 模块 识别 方法 ,一般 用 于 其 他 识别 模块 方法 
的 初始 化 阶段 。 该 方法 有 较 大 的 缺陷 ,如 果 节 点 连通 性 较 好 ,形成 的 模块 的 规模 将 非常 大 。 
连通 组 分 还 有 两 个 的 扩展 版 本 强 连通 组 分 和 双 连 通 组 分 。 强 连通 组 分 ( strongly connected 
component ) 指 有 向 网 络 中 两 个 节点 从 两 个 方向 上 都 可 通达 。 双 连通 组 分 (biconnected 
component ) 在 组 分 中 的 结果 有 两 个 非 交 释 的 路 径 。 


\ 348 BAB ”生物 分 子 网 络 与 通路 


CHAPTER 8 BIOLOGY MOLECULAR NETWORK AND PATHWAY 








图 8-9 连通 组 分 模块 示意 图 


(二 ) 基于 hub 的 模块 


一 个 基于 hub 的 模块 ( Hub-based module ) 包含 一 个 中 心 hub( 度 高 的 节点 ) 和 与 它 距 离 
小 于 等 于 d 的 那些 节点 。 在 蛋白 质 网 络 中 的 hub 与 细胞 致死 性 (lethality ) 有关, 并 且 与 相同 的 
hub 连 接 的 蛋白 质 一般 具 有 相似 的 功能 。 基 于 hub 的 模块 具体 识别 步 双 如 下 : 

1. 计算 网 络 中 的 每 个 节点 的 度 。 

2. 定义 度 高 于 指定 靖 值 (如 : 大 于 10 ) 的 节点 为 hub 节 点 。 

3. 每 个 hub 和 与 它 距 离 小 于 等 于 d 的 节点 形成 一 个 模块 。 

对 于 图 8-9 所 示 网 络 来 说 ,如 果 设 置 度 为 6 的 节点 为 hub 节 点 , d 设 置 为 1。 那 么 网 络 将 产 
AE p^ SEF hubB BEBE M,-(H, A, E, D, I, J, KFIM;-z(R, S, O, N, P,Q, T). 


(=) 完全 图 模块 


完全 图 模块 ( cliques module ) 是 每 对 节点 都 直接 连接 的 图 。 对 于 图 8-9 所 示 网 络 , (R, S, 
O, N, P, Q} 是 一 个 由 6 个 节点 组 成 的 完全 图 模块 ,而 {J, K, M, 局 是 一 个 4 节点 的 完全 图 模块 。 
在 蛋白 质 网 络 中 的 完全 图 模块 经 常 对 应 蛋白 质 混 合 物 和 共同 的 功能 。 这 种 模块 也 反映 了 共 
表达 基因 的 簇 。 完 全 图 模块 在 实际 应 用 中 可 能 过 于 严格 。 例 如 ,一 个 蛋白 质 可 能 与 蛋白 质 
混合 物 中 的 多 个 蛋白 质 互助 而 不 一 定 与 所 有 和 蛋白质 互 作 。 而 这 个 蛋白 质 和 与 其 相互 作用 的 
混合 物 往 往 行使 相似 功能 。 另 外 ,检测 技术 的 缺陷 可 能 导致 失去 和 蛋白质 混 合 物 中 的 个 别 蛋 
白 与 其 他 蛋白 的 互 作 。 总 之 ,完全 图 模块 有 时 可 能 过 于 严格 。 因 此 , palla 等 人 提出 全 连接 集 
搜索 方法 ( clique percolation method, CPM ) 来 改善 过 于 严格 的 完全 图 模块 识别 。 算 法 如 下 : 

1. 寻找 网 络 中 所 有 的 完全 图 ,这 将 形成 多 个 不 同 节 点 数 k 的 clique, 即 k-eliques(k=3,4，…) 

2. 合并 所 有 共享 k-1 个 节点 的 k-clique, 合 并 后 的 子 图 形成 模块 ,也 称 为 k 完 全 图 社区 
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( k-clique-community )。 

如 图 8-9 所 示 网 络 , (I,J, K, L, M} 是 由 {I, J, L, MANJ, K, L, M} 两 个 4-clique 形 成 的 4 完 
全 图 社区 模块 。 我 们 可 知 {I, J, K, L, M} 并 不 是 完全 图 ,但 节点 连接 非常 紧密 。palla 等 人 开 
发 了 该 方法 的 软件 CFinder。 它 能 实现 网 络 密集 集团 模块 搜索 和 可 视 化 分 析 。 


(四 ) 基于 介 数 的 模块 识别 


Girvan 和 Newman 首 次 发 现 边 介 数 对 于 识别 模块 非常 有 效 。 介 数 大 的 边 往往 是 两 个 模 
块 交 互 的 必 经 之 路 。 因 此 ,删除 介 数 大 的 边 ,将 倾向 于 识别 那些 功能 相对 集中 的 模块 。 我 们 
将 介绍 两 种 基于 介 数 的 模块 识别 方法 。 介 数 中 心性 聚 类 ( betweenness centrality clustering, 
BCC ) 和 介 数 共 发 生 分 裂 ( betweenness commonality decomposition, BCD ) 聚 类 。BCC 也 称 为 
CN 算法 ,由 Girvan 和 Newman 开 发 而 得 名 。 算 法 如 下 : 

1. 计算 在 网 络 中 的 所 有 边 的 介 数 。 

2. 删除 最 高 介 数 的 边 。 

3. 重新 计算 网 络 中 的 所 有 边 的 介 数 。 

4. 重复 步骤 2、3 直 到 没有 任何 边 存在 。 

算法 结果 将 产生 层次 聚 类 结构 来 表示 模块 ,因此 该 方法 属于 分 裂 的 层次 聚 类 。 因 为 这 
个 算法 每 次 需要 重新 计算 删除 边 后 的 介 数 ,因此 ,该 算法 较为 耗 时 。 

介 数 共 发 生 分 裂 聚 类 是 介 数 中 心性 聚 类 的 改进 版 本 。 该 方法 引入 共 发 生性 测度 来 加 强 
连接 紧密 的 蛋白 质 的 聚 类 ,该 方法 更 适合 蛋白 质 网 络 中 寻找 功能 模块 。BCD 算 法 如 下 : 

L 计算 在 网 络 中 的 所 有 边 的 共 发 生性 (C )。 边 共 发 生性 (commonality ) 衡量 一 个 边 对 
应 的 两 个 端点 共享 的 邻居 高 于 随机 发 生 情况 的 程度 。 


k+l 
Jnxm (8-8) 


n, m 代 表 两 个 端点 的 度 ,k 代 表 共 享 的 邻居 数 。 
2. 计算 在 网 络 中 的 所 有 边 的 介 数 (B )。 

3. 删除 B/C 比值 最 大 的 边 。 

4. 重复 步骤 2、3 直 到 没有 任何 边 存 在 。 


(五 ) 最 大 化 模块 化 测度 的 聚 类 


一 个 好 的 模块 划分 方案 得 到 的 结果 应 该 使 得 模块 内 的 边 更 多 而 模块 间 的 边 更 少 。 如 果 
最 小 化 模块 间 的 连接 (或 最 大 化 模块 内 的 连接 ), 那 么 最 优 的 划分 方案 是 形成 一 个 单一 模块 ， 
那样 模块 间 没 有 任何 连接 。 模 块 化 测度 ( modularity measure ) 能 够 解决 这 个 问题 。 对 于 一 个 
网 络 ,如果 给 定 一 个 划分 成 模块 的 方案 ,模块 化 M 定 义 为 : 


aint. V ja d. j 
u- 3 GD | (8-9) 
N, 是 模块 的 数量 , 工 表 示 在 网 络 中 边 的 数量 , 1 代表 在 模块 ;中 的 边 数量 , & 代 表 在 模块 


中 所 有 节点 的 度 的 和 。 
许多 算法 使 用 该 测度 来 估计 模块 识别 方法 的 效果 。 既 然 高 模块 化 测度 值 代表 划分 方案 


Ce 
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高 的 网 络 模块 化 程度 。Clauset 等 人 利用 最 大 化 模块 化 测度 的 策略 开发 了 贪心 方法 。 从 一 些 
初始 节点 出 发 ,迭代 的 试探 加 入 邻近 的 节点 和 边 。 加 入 的 边 保 证 使 模块 化 M 值 始终 增加 , 直 
到 值 无 法 继续 增加 时 得 到 最 佳 的 模块 识别 结果 。Blondel 等 人 开发 了 局 部 最 优 方法 ,该 方法 
计算 初始 划分 后 ,将 每 个 划分 后 的 篮 当 成 新 的 更 小 网 络 中 的 节点 ,然后 在 这 样 更 小 的 网 络 中 
寻找 保证 模块 化 M 值 增加 的 划分 。 直 到 M 不 增加 算法 停止 。 该 方法 速度 快 , 聚 类 效果 也 往往 
比 前 述 的 贪心 方法 好 。Guimera 和 Amaral 等 人 提出 模拟 退火 算法 寻找 使 M 最 大 化 的 划分 。 枚 
举 所 有 划分 非常 耗 时 ,该 方法 使 用 模拟 退火 算法 进行 快速 搜索 ,实现 寻找 目标 函数 最 优 的 模 
块 划 分 。 因 为 该 方法 是 全 局 优化 方法 ,因此 得 到 的 效果 往往 比 上 面 的 局 部 最 优 方法 好 。 

除了 以 上 所 述 的 模块 识别 方法 外 ,还 存在 大 量 的 方法 用 于 网 络 的 模块 识别 。 如 原始 用 
于 基因 表达 谱 的 凝聚 层次 聚 类 方法 可 以 用 于 网 络 的 模块 识别 ,这 需要 在 聚 类 前 先 把 网 络 表 
示 为 邻接 矩阵 形式 。 它 还 适用 于 二 分 网 络 的 聚 类 。 二 分 网 络 只 需 使 用 双向 聚 类 方法 即 可 
实现 二 分 网 络 模块 识别 。 社 会 网 络 的 k-clique 算 法 也 可 以 用 于 网 络 的 模块 识别 。 一 个 社会 
网 络 的 k-clique 为 网 络 中 任意 节点 之 间距 离 小 于 等 于 k 的 子 图 , 相 比 完全 图 模块 ,社会 网 络 的 
k-clique 横 块 更 强调 节点 间距 离 远 近 关 系 。 





五 、 网 络 分 析 软 件 》》” 


(一 ) Cytoscape 软 件 


Cytoscape( http: //www.cytoscape.org ) 是 最 强大 的 图 形 化 可 视 化 、 编 辑 和 分 析 生 物 学 网 络 
的 软件 ,界面 如 图 8-10 所 示 。 该 软件 支持 多 种 网 络 输入 格式 ,也 可 以 使 用 软件 提供 的 编辑 器 
直接 构建 新 的 网 络 。Cytoscape 还 能 够 为 网 络 添加 丰富 的 注释 信息 ,也 可 以 方便 地 加 载 自身 
以 及 第 三 方 开发 的 大 量 功 能 插件 。 由 于 许多 网 络 研究 人 员 向 Cytoscape 官 方 网 站 提供 大 量 的 
网 络 分 析 和 可 视 化 插件 ,使 得 Cytoscape 包 含 了 许多 功能 强大 和 特异 性 的 插件 ,例如 生物 学 网 
络 的 各 种 最 新 的 网 路 分 析 方 法 插件 。 






$ Cytoscape Desktop (Session: pathways ys) 

File Edit View Select Layout Plugins Melp 

Du AQAR 加 ag | 
Comopanet | © Tarren 
“EE etrerk | Vistlagper™| Editor | Filters) 
Notrerk — 7 mà ide 








Mode Attribute Browser | Edge Attribute Brovzer | Betvork Attribute Browser 
Migu-click + drag t> 2008 Widdeclick + drap to PAN 


图 8-10 ”Cytoscape 软 件 界 面 
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(=) 基于 R 的 网 络 分 析 软 件 : RBGL 和 igraph 包 


R 语 言 系 统 ( http: //www.r-project.org ) 最 早 是 由 Robert Gentleman 和 Ross Ihaka 开 始 编制 ， 
系统 界面 如 图 8-11 所 示 。 自 从 基于 R 的 bioconductor 项 目 启动 以 来 , R 已 经 成 为 生物 数据 处 理 
和 分 析 最 强大 的 工具 之 一 ,目前 有 许多 基于 R 的 网 络 分 析 程 序 包 。 最 强大 的 包 是 igraph ( http: / 
igraph.sourceforge.net/ ) 和 bioconductor 的 RBGL 包 ( http: //www.bioconductor.org/ )。 他 们 提供 了 
大 量 的 函数 用 于 网 路 构建 ` 不同 形式 的 输出 。 网 络 分 析 功 能 非常 强大 ,包含 了 基本 的 度 、 介 
数 等 数 十 种 网 络 拓扑 属性 测度 。 也 包含 评估 网 络 ,如 power-law 分 布 和 寻找 各 种 网 络 模块 的 
方法 ,如 CN 基于 介 数 .最 大 化 模块 化 测度 的 聚 类 算法 。 使 用 R 来 进行 网 路 分 析 的 最 大 特点 
当 属 用 户 可 以 方便 地 自 定义 开发 新 的 网 络 分 析 方 法 和 改变 原 有 方法 。 因 此 ,非常 适合 有 一 
定编 程 基础 的 网 络 分 析 用 户 使 用 。 


RGui 


文件 s 查看 XA 程序 包 窗口 Wb — 


R version 2.14.1 (2011-12-22) 
c 011 The R Foundation for Statistical Computing 


Platform: i1386-pc-mingw32/i386 (32-bit) 
Bae, RHEE 


Senge T ARE Dex E 散布 
Ri'iicense()'SÉ'iicence()' 来 看 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， be v RETT 
FE contributors () ' 来 看 合作 


的 详 
Ri'citation()' Mo EX pobre ges Armee ra. 


Ri'demo() ' 来 看 一 些 示 范 程序 ， 用 "help1()， ee 或 
it help. aar rt () Etam 浏览 器 来 看 帮助 文 
'qo 3R Bg. 





图 8-11 BR 系统 的 界面 
(三 ) CFinder 软 件 


CFinder( http: //cfinder.org ) 提供 全 连接 集 搜索 方法 和 可 视 化 分 析 , 界 面 如 图 8-12 所 示 。 
完全 图 模块 在 实际 应 用 中 可 能 过 于 严格 ,例如 ,检测 技术 的 缺陷 可 能 导致 失去 蛋白 质 混 合 物 
中 的 个 别 蛋 白 与 其 他 蛋白 的 互 作 。CFinder 提 供 全 连接 集 搜索 方法 来 改善 过 于 严格 的 完全 
图 模块 识别 ,并 且 可 以 获得 交友 的 模块 ,这 更 符合 生物 学 的 模块 含义 。 


(四 ) GraphWeb 网 站 平台 


GraphWeb( http: //biit.cs.ut.ee/graphweb/ ) 是 一 个 基于 网 页 形式 的 生物 学 网 络 分 析 和 功 
能 模块 识别 工具 ,界面 如 图 8-13 所 示 。 该 工具 提供 整合 异 质 性 数据 和 多 物种 数据 来 构建 有 
向 和 无 向 `, 加 权 和 无 权 网 络 的 方法 。 更 具 特 色 的 是 ,该 工具 提供 了 多 种 识别 网 络 的 功能 模块 
的 方法 。 包 含 了 发 现 连 通 组 分 模块 、 基 于 hub 的 模块 .完全 图 模块 和 MCIL 模 块 的 方法 。 也 提 
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FA cFinder 
File View Tools Help Eddie 
a => € 6 BB Q community graph around setected community | Q communities of selected vertex | st 














f Mea rar Api 
Cdc16p Apc11p Apc1p Apc2p Apc5 fi 








a frame rate: 49 28fps - 56 items - fonts(2) colors(7) mem(5M / 30M) (x-302 43, y-214 32, z 0.459 








图 8-12 CFinder 软 件 的 界面 


供 解 释 这 些 模块 的 生物 含义 的 策略 。 模 块 中 的 基因 能 够 自动 的 注释 到 GO 或 KEGG 等 数据 库 
来 发 现 模块 的 生物 学 功能 。GraphWeb 基 于 网 页 形式 ,用 户 操作 非常 方便 。 
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图 8-13 GraphWeb 网 站 界面 





第 四 节 
通路 的 网 络 分 析 方 法 





Section 4 Network-based Methods of Pathway Analysis 


随 着 后 基因 组 时 代 的 来 临 ,从 组 学 (“omic”) 的 层面 对 疾病 风险 通路 分 析 已 成 为 一 种 
必然 而 又 合理 的 趋势 。 高 通 量 生物 芯片 大 规模 基因 突变 检测 等 技术 的 发 展 产 生 了 大 规模 
的 ,几乎 涵盖 了 各 种 常见 疾病 的 基因 数据 。 研 究 者 们 利用 这 些 数据 在 分 析 疾 病 相关 代谢 通 
路 、 信 号 通路 方面 取得 了 很 好 的 研究 效果 。 其 中 最 常用 的 通路 分 析 是 识别 与 兴趣 问题 相关 
的 通路 。 一 个 有 效 的 方法 是 使 用 前 面 章 节 介 绍 的 基因 集合 富 集 分 析 方 法 ( 详 见 第 三 章 )。 经 
典 的 方式 是 分 析 一 组 兴趣 基因 列表 ( 如 : 差异 表达 基因 集 ) 在 各 个 通路 上 是 否 过 出 现 ,可 以 
使 用 超 几 何 检 验 ( hypergeometric test ) 和 Fisher 精 确 检 验 等 统计 学 方法 识别 显著 富 集 的 通 
路 。 对 于 像 基 因 表 达 谱 等 全 基因 组 检测 得 到 的 数据 ,还 可 以 使 用 CSEA( gene set enrichment 
analysis ) 方 法 简化 感 兴趣 基因 列表 的 获得 过 程 , 避 免 兴 趣 基因 集合 选择 过 程 的 偏好 性 。 然 
而 ,这 些 方法 的 设计 思想 都 是 把 通路 内 的 基因 简化 成 集合 ,忽略 通路 内 基因 间 已 知 的 相互 作 
用 关系 。 通 路 数据 库 中 存储 的 通路 信息 区 分 于 GO 数据 库 的 信息 的 最 大 特点 就 是 通路 数据 
具有 精确 的 内 部 分 子 的 相互 作用 关系 , 即 通路 结构 信息 。 这 种 忽略 通路 内 基因 间 已 知 的 相 
互 作 用 关系 的 缺陷 造成 通路 分 析 的 精确 度 明 显 下 降 , 对 通路 内 已 有 的 先 验 互 作 关系 也 造成 
了 彻底 的 浪费 。 男 外 通路 之 间 的 交互 信息 也 非常 重要 ,尤其 复杂 疾病 发 生 多 是 由 多 个 通路 
的 协同 作用 导致 异常 所 致 。 下 面 将 介绍 几 种 利用 网 络 分 析 技 术 有 效 挖掘 通路 中 的 结构 信息 、 
交互 作用 来 进行 通路 分 析 的 方法 。 


一 、 影 响 分 析 方 法 》》 


影响 分 析 ( impact analysis ) 方 法 由 Draghici 等 人 提出 。 该 方法 既 考 虑 了 经 典 的 统计 学 分 
析 的 通路 得 分 ,又 考虑 了 基因 表达 值 定 量 的 变化 和 这 些 基因 在 通路 中 的 位 置 对 通路 的 影响 
情况 。 例 如 ,在 胰岛 素 ( insulin ) 通 路 中 ,胰岛 素 受 体 ( insulin receptor, INSR ) 处 于 通路 的 起 
始 位 置 , 它 的 损坏 将 导致 整体 通路 受到 影响 ,丧失 正常 功能 。 而 在 这 个 通路 的 下 游 中 的 许多 
基因 的 损坏 对 通路 没有 大 的 影响 。 因 此 , Draghici 等 人 认为 基因 在 通路 中 的 位 置 非常 重要 ， 
尤其 是 处 于 起 始 或 上 游 位 置 的 基因 。 胰 岛 素 受 体 有 多 种 功能 ,并 参与 到 多 个 通路 中 。 虽 然 
在 胰岛 素 通路 中 INSR 起 到 了 关键 作用 ,但 在 黏着 点 ( adherens junction ) 通路 中 ,除了 胰岛 素 
受 体外 ,还 有 许多 酷 氨 酸 激酶 受 体 替代 胰岛 素 受 体 对 通路 的 作用 。 因 此 ,在 这 个 通路 中 胰岛 
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素 受 体 的 损坏 对 通路 的 影响 ,并 不 像 在 胰岛 素 通路 中 那样 强烈 。 因 此 ,即使 同一 个 受 体 ,在 
不 同 通路 中 因为 通路 结构 不 同 ,对 通路 影响 力也 不 同 。 为 了 解决 这 些 问题 , Draghici 等 人 利 
用 通路 结构 信息 ,提出 了 影响 分 析 测度 ,如 下 : 








> |PF (&) 
(IF)P ELE T. SESS ( 810) 
|AE|x Nal P:i) 


第 一 项 log (-L) 表示 通路 P 的 超 几 何 检验 显著 性 值 ( 即 ,基因 富 集 分 析 结果 )。 第 二 项 
Pi 


表示 通路 已 内 差异 基因 对 该 通路 的 整体 影响 ,该 项 值 利用 了 通路 结构 信息 进行 计算 ,依赖 于 
基因 在 通路 中 的 表达 值 和 通路 内 基因 的 互 作 。 其 中 和 Nj,( p, ) 为 通路 已 内 的 差异 表达 基因 数 ; 
[Az] 为 平均 基因 表达 量 ; PF g ) 表 示 该 通路 内 基因 g 的 影响 得 分 , 它 由 基因 g 自 身 的 得 分 和 上 
游 的 基因 影响 得 分 构成 ,计算 公式 如 下 : 





PF (g) - AE (g)* >) i us (8-11) 


ueUS, Na (u) 
AE( 8g) 为 基因 g 的 差异 表达 量 ; U5, 为 基因 g 在 该 通路 中 的 所 有 上 游 基 因 ; Nalu ) 为 基 
因 u 的 下 游 基 因数 ; 如 果 基 因 u 正 调控 基因 g, 则 pe=1, 否 则 bs=-1。 从 PF(g ) 计 算 公 式 可 知 ， 
如 果 一 个 差异 基因 出 现在 通路 的 上 游 ,那么 它 将 对 下 游 的 许多 基因 影响 得 分 具有 贡献 。 差 
异 程度 大 ,贡献 也 越 大 。 而 出 现在 下 游 的 差异 基因 ,贡献 力 有 限 。 因 此 影响 分 析 方 法 更 加 强 
调 通 路 上 游 基 因 的 影响 作用 。 影 响 分 析 方 法 的 第 二 项 与 谷歌 ( Google ) 网 站 的 页 面 排序 方法 
类 似 。 如 果 一 个 网 页 有 许多 网 页 指向 它 , 那 么 这 个 网 页 是 重要 的 ,而 对 于 基因 来 说 是 ,一 个 
基因 能 够 影响 通路 下 游 的 许多 基因 ,那么 这 个 基因 在 通路 中 更 加 重要 。 
Draghici 等 人 将 该 方法 用 于 肺癌 和 乳腺 癌 的 风险 通路 识别 ,取得 了 非常 好 的 效果 。 通 过 
与 超 几何 和 GSEA 方 法 比较 ,发 现 该 方法 能 够 有 效 识别 与 疾病 相关 的 通路 。 尤 其 是 疾病 风险 
基因 在 通路 中 分 布 数量 少 ,但 在 通路 的 起 始 位 置 起 到 关键 作用 的 那些 通路 。 由 于 该 方法 针 
对 信号 通路 的 特点 开发 ,因此 非常 适用 于 信号 通路 的 识别 ,对 代谢 通路 的 识别 性 能 可 能 效果 
不 佳 。 


二 、 潜 能 通路 识别 分 析 》》 


Pam 等 人 开发 的 潜能 通路 识别 分 析 ( latent pathway identification analysis, LPIA ) 方 法 强 
调 通 路 间 的 交互 重要 性 。 例 如 ,癌症 的 发 生 和 转移 往往 与 多 个 通路 的 交互 作用 联合 导致 的 
异常 密 不 可 分 。 而 且 , 与 更 多 相关 的 异常 通路 密切 的 通路 在 癌症 的 发 生发 展 中 更 为 重要 。 
因此 ,这 样 的 通路 更 应 该 被 方法 有 效 加 以 识别 。 为 了 实现 这 一 功能 ,首先 应 该 构建 通路 和 通 
路 之 间 的 交互 网 络 。Pam 等 人 利用 每 个 通路 中 的 基因 和 集合 获得 与 该 通路 相关 的 功能 ,如 GO 
功能 。 然 后 根据 共享 功能 的 程度 ,将 通路 与 通路 联系 起 来 ,形成 一 个 网 络 , 如 图 8-14A 所 示 。 
通路 是 网 络 中 的 节点 ,通路 与 通路 之 间 的 边 代 表 共 功能 。 边 具有 权 值 ,代表 共 功 能 的 程度 。 
这 个 程度 根据 通路 中 共享 功能 的 基因 数 和 基因 差异 表达 量 来 获得 。 具 体 计算 方法 如 下 : 


第 八 章 生物 分 子 网 络 与 通路 355 
CHAPTER 8 BIOLOGY MOLECULAR NETWORK AND PATHWAY 





GAP 
GUP 


P 表 示 通 路 ,C 表 示 功 能 ,也 就 是 CO 中 的 一 个 功能 项 (term )。DE 代 表 基 因 的 差异 表达 值 。 
Med 代 表 中 位 值 。G ev P 为 通路 P 中 具有 功能 G 的 基因 ,G PP 为 通路 P 和 功能 G 中 所 有 的 基 
因 。 如 果 一 个 通路 包含 更 多 与 对 应 功能 相关 的 基因 ,并 且 这 些 基 因 的 差异 表达 量 更 大 ,那么 
wep 的 值 越 高 。 因 为 两 个 通路 有 可 能 共享 多 个 功能 ,因此 ,测度 4 整合 了 它们 的 所 有 权 值 wep 
作为 衡量 两 个 通路 的 交互 得 分 。 如 下 : 











xmed (DE, :x eG P) (8-12) 


Wgp 


G 
A, =È Wan We, p ( 8-13 ) 


每 两 个 通路 计算 得 分 后 ,将 获得 通路 的 边 加 权 网 络 , 如 图 8-14B 所 示 。 对 该 网 络 使 用 随 
机 游 走 方法 ,可 以 计算 每 个 通路 的 交互 重要 性 ,并 对 所 有 通路 根据 它们 的 交互 重要 性 与 随机 
情况 比较 ,获得 每 个 通路 的 交互 显著 性 。 交 互 显著 性 越 强 代表 这 个 通路 更 可 能 与 该 疾病 相 
关 。 例 如 ,按照 该 方法 原理 ,图 8-14B 中 的 通路 A 将 与 该 疾病 最 为 显著 相关 。 


B 





图 8-14 LPIA 方 法 构建 的 通路 网 络 示意 图 
A. 通 路 为 节点 的 网 络 ; B. 边 具有 权重 的 网 络 ; 
即 对 A 网 络 中 的 边 赋予 交互 程度 
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三 、 通 路 分 析 软 件 >>> 


(一 ) DAVID 软 件 


DAVID( http: //david.abcc.nciferf.gov/ ) 是 一 款 强大 的 对 基因 进行 通路 和 功能 注释 的 网 站 
工具 ,界面 如 图 8-15 所 示 。 在 网 站 中 输入 一 个 基因 和 集合 后 ,人 们 能 够 识别 显著 富 集 的 功能 和 
通路 。 改 进 的 Fisher 精 确 检 验 被 用 于 通路 的 识别 。 该 工具 提供 了 Biocarta 和 KEGG 通 路 的 可 
视 化 图 ,可 以 对 注释 基因 在 通路 中 进行 表示 。 而 且 基 因 的 各 种 ID 支持 和 转化 功能 非常 强大 。 


© DAVID Functional Annotation Bioinformatics Microarray Analysis — Founiap007 的 浏览 到 [zm 


DAVID Bioinformatics Resources 6.7 
Institute of Allergy and Infectious Diseases (NIAID), NIF 


Home . Start Analysis | Shortcut to DAVID Tools | Technical Center | Downloads & APIs Term of Service Why DAVID? About Us 


Shortcut to DAVID Tools Recommending A paper published in Nature Protocols describes step-by-step proce: to use DAVID! 


Welcome to DAVID 67 
= ae 2003 - 2012 [ m 


The Database for Annotation, Visualization and Integrated 
Discovery (DAVID ) v6.7 is an update to the sixth version of 
our original web-accessible programs, DAVID now provides a 
kas comprehensive set of functional annotation tools for 


investigators to understand biological meaning behind large list 
of genes. For any given gene list, DAVID tools are able to 


=) What's Important in DAVID? 


& Identify enriched biological themes, particularly GO 
terms 
& Discover enriched functional-related gene groups 
WW Cluster redundant annotation terms 
S Visualize genes on BioCarta & KEGG pathway maps 
W Display related many-genes-to-many-terms on 2-D DAVID Bioinformatic Resources Citations 


view. 
& Search for other functionally related genes not in the list | 1600 
& List interacting proteins E m 
metn t ppm Y. 

| > 





Tess 732 9 pq cm Go Q sov 





图 8-15 DAVID 网 站 界面 


(=) 基于 R 的 网 络 分 析 软 件 : iSubpathwayMiner 包 


iSubpathwayMienr ( http: //cran.r-project.org/package- iSubpathway Miner ) 是 基于 RBCL， 
igraph 包 开发 的 专 为 KEGG 代 谢 通路 和 信号 通路 分 析 程序 包 , 工 作 界 面 如 图 8-16 所 示 。 该 软 
件 包含 了 几 十 种 通路 图 重 构 方案 。 多 种 风险 通路 和 子 通 路 识别 方法 ,通路 的 拓扑 分 析 方 法 。 
通路 图 可 以 在 R 中 显示 ,也 可 以 输出 为 cytoscape 等 软件 接受 的 格式 ,或 自动 转 入 KECG 网 站 进 
行 可 视 化 。 
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pathvayName annComponentRatio annBgRatio pralue 


1 Retinol metabolism 
fics by cytochrome P450 
$lism - cytochrome P450 
fhospholipid metabolism 
$ Fatty acid metabolism 
$d hormone biosynthesis 
$lycerolipid metabolism 
$ Pyrimidine metabolism 
$dative phosphorylation 
fnoleic acid metabolism 
$ Purine metabolism 
$ Tyrosine metabolism 
$bolism - other enzymes 
$ Tryptophan metabolism 
$ methionine metabolism 
$ Caffeine metabolism 
$idonic acid metabolism 
$ Steroid biosynthesis 
$ carbon pool by folate 
$ysis / Gluconeogenesis 
$bile acid biosynthesis 


< 


29/1000 
26/1000 
24/1000 
24/1000 
16/1000 
18/1000 
16/1000 
22/1000 
25/1000 
12/1000 
27/1000 
13/1000 
14/1000 
12/1000 
10/1000 

5/1000 
12/1000 

7/1000 

7/1000 
12/1000 

6/1000 


图 8-16 


(=) pathway 一 express 软 件 


65/21796 0.000000e«00 
71/21796 0.000000e+00 
73/21796 7.993606e-15 
79/21796 5.873080e-14 
42/21796 1.851408e-11 
56/21796 2,836807e-11 
49/21796 2.749426e-10 
99/21796 5.635397&e-10 
132/21796 1.388163e-09 
29/21796 2.051083e-09 
161/21796 5.0212 68e-09 
41/21796 1.964871e-08 
52/21796 5.786314e-08 
42/21796 2.514240e-07 
36/21796 3.375514e-06 

7/21796 3.912984e-06 
57/21796 8.517456e-06 
18/21796 8.543201e-06 
18/21796 8.543201e-06 
64/21796 2.942795e-05 
16/21796 4.948480e-05 





iSubpathwayMiner 1. 4EJf- i 


pathway-express ( http: //vortex.cs.wayne.edu/projects.htm#Pathway—Express ) 是 影响 分 析 方 
法 对 应 的 平台 ,界面 如 图 8-17 所 示 。 该 平台 接收 用 户 输入 的 兴趣 基因 和 量化 的 值 , 如 由 表达 
谱 找 到 的 疾病 差异 基因 和 差异 倍数 (fold change ) 值 。 然 后 通过 计算 每 个 通路 的 影响 分 析 得 
分 ,最 终 返回 识别 风险 通路 的 结果 。 影 响 分 析 方 法 既 考 虑 了 经 典 的 统计 学 分 析 的 通路 得 分 ， 
又 考虑 了 基因 表达 值 定量 的 变化 和 这 些 基因 在 通路 中 的 位 置 对 通路 的 影响 情况 。Draghici 
等 人 认为 基因 在 通路 中 的 位 置 是 重要 的 ,尤其 是 处 于 起 始 位 置 的 基因 。 该 方法 用 于 肺癌 和 
乳腺 癌 的 风险 通路 识别 ,取得 了 非常 好 的 效果 。 
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£m BS onto-Toois used World Wide. Click to leam more. 
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图 8-17 pathway—express Ħ 站 界面 
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应 用 实例 : 疾病 代谢 子 通路 识别 、 
网 络 构建 和 分 析 


Section 5 Application Example: Identification, Network Construction 


and Analysis of Disease Metabolic Subpathways 
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疾病 的 发 生 和 发 展 往往 与 代谢 通路 的 异常 变化 密切 相关 。 随 着 代谢 通路 网 络 数据 越 来 
越 完善 ,探索 各 种 疾病 尤其 是 复杂 疾病 与 代谢 通路 的 内 在 更 精细 的 关联 机 制 更 成 为 后 基因 
时 代 的 一 大 挑战 。 因 为 疾病 的 发 生 往往 与 代谢 通路 强烈 的 局 部 功能 和 生物 学 过 程 混乱 密切 
相关 。 因 此 ,识别 疾病 显著 相关 的 代谢 子 通路 区 域 ,能 够 更 加 精确 地 定位 疾病 相关 的 代谢 局 
部 功能 区 域 和 模块 。 传 统 上 ,研究 机 构 一 般 利 用 生物 学 实验 技术 来 定位 疾病 相关 的 代谢 子 
通路 。 然 而 ,这 种 精细 的 代谢 子 通路 识别 实验 一 直 以 来 都 是 生物 学 和 医学 领域 的 难点 。 由 
于 通路 自身 分 子 机 制 的 高 度 复杂 性 ,使 得 利用 生物 学 实验 方式 进行 代谢 子 通路 识别 相关 研 
究 整体 进展 十 分 缓慢 ,仅仅 集中 在 研究 个 别 热点 疾病 的 潜在 热点 致 病 代 谢 子 通 路 上 。 即 使 
当前 的 技术 能 够 逐一 地 通过 生物 学 实验 进行 得 查 ,识别 如 此 多 的 疾病 与 代谢 子 通路 关系 显 
然 是 一 项 非常 巨大 的 、 耗 时 费力 的 项 目 。 这 使 得 各 种 疾病 与 代谢 子 通 路 全 局 关联 关系 无 法 
清晰 呈现 ,导致 疾病 代谢 相关 分 子 机 制 的 研究 出 现 瓶 人 颈 。 本 节 我 们 将 介绍 两 个 实例 来 演示 
利用 通路 网 路 分 析 技 术 改 善 如 上 问题 的 方案 : (D 使 用 社会 网 络 的 k-clique 方 法 和 利用 通路 结 
构 信 息 识 别 疾病 风险 子 通 路 来 改善 通路 识别 效果 及 提高 通路 识别 精度 ; @ 构 建 各 种 疾病 与 
代谢 子 通路 全 局 关联 网 络 来 系统 分 析 疾病 通路 机 制 的 案例 分 析 。 


一 、 利 用 通路 结构 信息 识别 疾病 风险 子 通路 》》 


代谢 通路 整体 上 是 一 个 复杂 的 网 络 ,通路 内 几乎 所 有 的 组 分 ( 酶 .化 合 物 等 ) 披 此 之 间 
通过 数 步 的 级 联 生化 反应 相关 联 。 一 个 酶 基因 的 表达 变化 (如 编码 该 酶 的 基因 的 突变 ) 可 能 
影响 网 络 内 的 另 一 个 酶 基因 的 变化 。 然 而 ,这 种 影响 有 强 弱 之 分 ,往往 通路 内 彼此 邻接 越 近 
的 酶 之 间 ,相互 影响 的 程度 越 大 ,它们 也 更 倾向 于 具有 相似 的 生物 学 功能 和 行使 相同 的 生物 
学 过 程 。 因 此 ,精细 定位 和 识别 疾病 相关 代谢 子 通路 局 部 区 域 意 义 重 大 。 通 路 结构 信息 中 
隐 含 了 大 量 而 又 详尽 的 基因 功能 关联 的 有 效 信息 使 得 结合 通路 结构 信息 来 定位 和 识别 子 通 
路 是 十 分 有 应 用 价值 的 。 本 实例 介绍 使 用 k-clique 方 法 和 利用 通路 结构 信息 ,将 代谢 通路 划 
分 成 子 通路 ,并 利用 超 几 何 检验 方法 对 评估 和 识别 疾病 风险 子 通路 的 案例 。k-clique 代 谢 子 
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通路 识别 方法 具体 如 下 : 

1. 重 构 代 谢 通路 ,使 之 以 酶 (基因 ) 为 中 心 ” 即 转化 代谢 通路 为 以 酶 为 节点 , 酶 和 酶 之 
间 如 果 共 享 至 少 一 个 代谢 子 , 那 么 它们 之 间 连 接 一 条 边 。 如 图 8-18 所 示 。A 图 为 代谢 通路 
的 生化 反应 图 ,经 过 转化 后 将 得 到 酶 为 节点 的 图 , 即 B 图 。 

2. 接 下 来 ,使 用 图 划分 算法 ,将 通路 划分 成 子 通 路 ( 网络 模块 ) 社会 网 络 的 k-clique 算 
法 是 一 个 理想 的 选择 。 一 个 k-clique 为 图 中 任意 节点 之 间距 离 小 于 等 于 k 的 子 图 (图 8-18C )。 
利用 k-clique 算 法 能 够 将 每 个 通路 图 都 划分 成 子 图 , 子 图 对 应 的 通路 部 分 称 之 为 子 通路 。 

3. 注释 疾病 差异 基因 到 相应 每 个 代谢 子 通路 中 。 

4. 最 后 利用 超 几 何 富 集 分 析 技 术 识 别 注 释 到 相应 每 个 代谢 子 通 路 的 富 集 显著 性 。 通 过 
基因 - 酶 对 应 关系 将 基因 集合 注释 到 子 通 路 中 。 对 于 基因 集合 注释 到 的 代谢 子 通路 ,统计 卷 
入 这 个 子 通路 的 基因 数量 。 如 果 整 个 人 类 的 基因 组 有 m 个 基因 ,而 这 些 基 因 落 入 子 通路 的 
基因 数 为 tf。 如果 提 交 的 基因 集合 的 基因 数 为 n, 而 这 些 基 因 注 释 到 子 通路 的 基因 数 为 r。 则 
可 以 通过 超 几 何 检验 ( 详 见 第 三 章 内 容 ) 计 算 该 子 通路 的 统计 学 显著 性 pz 值 。 

我 们 将 k-clique 代 谢 子 通路 识别 方法 应 用 到 肺癌 的 表达 谱 数 据 , 令 人 满意 地 识别 出 与 肺 
癌 发 生 和 发 展 高 度 相关 的 具有 高 度 生物 学 显著 性 的 通路 。 该 方法 能 够 精细 定位 子 通路 区 域 
的 特点 能 够 有 效 的 细 化 通路 识别 ,并 挖掘 出 通路 整体 异常 不 明显 \ 但 局 部 区 域 异 常 显 著 的 通 
路 。 社 会 网 络 的 k-clique 方 法 更 强调 节点 距离 远近 关系 来 识别 网 络 模 块 的 特点 ,使 之 更 倾向 
于 识别 具有 相似 的 生物 学 功能 和 行使 相同 的 生物 学 过 程 子 通路 模块 。 该 方法 的 实现 提供 在 
iSubpathwayMienr ( http: //cran.r—project.org/package= iSubpathwayMiner ) 包 , 它 提供 了 该 方法 
的 使 用 及 相关 程序 代码 。 


二 疾病 代谢 网 络 构建 和 分 析 >> 


相似 的 疾病 很 可 能 具有 相似 的 发 生发 展 机 制 。 一 个 罕见 癌症 的 发 生机 制 可 能 与 常见 癌 
症 的 发 生机 制 相关 ,例如 相似 代谢 通路 的 异常 。 进 一 步 ,如 果 更 精细 识别 疾病 通路 的 异常 区 
域 , 即 子 通路 ,并 能 够 构建 所 有 已 知 疾病 与 子 通 路 的 全 局 关联 关系 ,那么 对 于 疾病 通路 的 研 
究 意 义 重大 。 当 前 的 生物 实验 技术 显然 无 法 逐一 进行 实验 筛 查 。 因 为 识别 如 此 多 的 疾病 与 
代谢 子 通路 关系 是 一 项 非常 巨大 的 、 耗 时 费力 的 项 目 。 这 使 得 各 种 疾病 与 代谢 子 通路 全 局 
关联 关系 无 法 清晰 呈现 ,导致 疾病 代谢 相关 分 子 机 制 的 研究 出 现 瓶 颈 。 本 实例 利用 实例 一 
的 子 通路 识别 方法 识别 每 个 疾病 的 风险 代谢 子 通路 ,从 而 构建 所 有 疾病 与 代谢 子 通 的 全 局 
关联 网 络 ,然后 利用 网 络 分 析 方 法 分 析 网 络 。 构 建 过 程 如 图 8-19 所 示 ,具体 过 程 如 下 : 

1. 获取 和 处 理 疾病 -基因 信息 ”从 genetic association database( GAD ) 疾病 基因 数据 库 中 
获取 疾病 分 类 数据 、 对 应 的 疾病 基因 数据 ,并 对 这 些 疾病 基因 关系 进行 去 元 余 、 统 一 命名 标 
准 及 存储 格式 .合并 亚 类 疾病 等 数据 整理 处 理工 作 , 得 到 疾病 及 基因 的 统一 关系 。 

2. 疾病 代谢 子 通路 识别 ”使 用 疾病 基因 关系 ,将 每 种 疾病 的 基因 集合 输入 到 k-clique 代 
谢 子 通路 识别 方法 中 ,识别 出 各 种 疾病 对 应 的 风险 代谢 子 通路 区 域 。 

3. 疾病 -代谢 子 通路 全 局 关联 网 络 构建 ”整合 所 有 疾病 与 子 通路 之 间 的 关系 成 为 以 疾 
病 和 子 通路 为 节点 ,疾病 与 子 通路 关联 结果 为 边 的 二 分 图 网 络 ,随后 继承 疾病 和 通路 的 类 别 
等 信息 。 
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C 
一 clique 算 法 得 到 的 一 个 子 通路 


B 
e 通 路 以 化 合 物 为 中 心 的 表示 方式 ; B 通路 转化 为 以 酶 为 节点 的 表示 方式 ; C 利用 3 
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获取 和 处 理 疾病 -基因 信息 
GAD 数 据 库 ; 原始 有 39910 对 疾病 -基因 关系 


$ 9 8 


| gene — gene — gene © | gene - 
| ETA .统一 命名 标准 及 存储 格式 A 
并 规模 亚 类 疾病 等 
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网 络 构建 | 


疾病 -代谢 子 通 
路 全 局 关联 网 络 


图 8-19 疾病 - 子 通路 全 局 关联 网 络 构建 过 程 


通过 上 面 构建 网 络 的 过 程 ,最 终 能 够 构建 疾病 -代谢 子 通路 全 局 关联 网 络 。 结 果 如 图 8-20A 
所 示 : 方块 节点 表示 代谢 子 通路 , 圆 表示 疾病 ; 颜色 表示 通路 所 属 类 别 和 疾病 所 属 类 别 。 构 建 
完 疾 病 - 代 谢 子 通路 全 局 相关 网 络 后 ,我 们 可 以 进行 网 络 的 基本 属性 拓扑 分 析 。 度 分 布 特性 分 
析 是 最 常见 的 分 析 , 即 计算 网 络 中 每 个 节点 的 度 ,然后 统计 每 个 度 出 现 的 次 数 或 频率 。 因 为 这 
里 构建 的 网 络 是 二 部 网 络 ,所 以 我 们 分 别 计算 疾病 和 子 通路 节点 的 度 分 布 特性 更 加 合理 和 符 
合生 物 学 本 质 。 如 图 8-20B、C 所 示 , 疾 病 节点 和 代谢 子 通 路 节点 的 度 分 布 都 大 致 服从 窜 律 分 
布 。 如 对 于 代谢 子 通路 来 说 ,大 部 分 的 子 通路 仅仅 与 少数 疾病 的 发 生 ,发展 有 关 。 仅 仅 很 少 的 
一 批 子 通路 与 大 多 数 的 疾病 相关 。 这 些 子 通路 位 于 图 8-20A 的 网 络 中 心 的 大 方块 节点 ,它们 的 
度 如 图 8-20B 的 黑 圈 区 域 所 示 。 进 一 步 我 们 发 现 ,这 些 通 路 都 属于 基础 类 代谢 通路 ,这 显示 了 疾 
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病 的 发 生发 展 往往 都 与 基础 类 代谢 的 异常 有 关 。 接 下 来 我 们 利用 网 络 聚 类 方法 识别 网 络 的 疾 
病 -代谢 模块 。 我 们 使 用 双向 层次 聚 类 方法 对 网 络 进行 聚 类 ,来 识别 网 络 的 模块 。 如 图 8-20D 
所 示 , 结 果 显示 网 络 具有 模块 化 的 倾向 , 且 同 类 疾病 和 代谢 子 通 路 倾向 于 在 相同 或 相近 的 模 
块 。 这 显示 了 相似 疾病 倾向 于 共享 更 多 相同 的 代谢 子 通 路 。 进 一 步 将 深入 探讨 潜在 致 病 代谢 
子 通路 内 部 基因 成 分 与 通路 致 病 性 强 弱 分 析 。 疾 病 -代谢 子 通路 全 局 关联 网 络 的 一 大 优势 是 
可 以 从 系统 的 角度 分 析 疾 病 风 险 通 路 中 酶 基因 的 变化 规律 。 我 们 考察 了 疾病 基因 .必要 基因 
( essential genes ) 在 子 通路 中 的 含量 的 变化 。 发 现 可 能 呈现 不 同 的 趋势 。 在 网 络 中 度 与 子 通 路 
中 不 同类 型 基因 的 含量 之 间 的 关系 显著 相关 。 当 一 个 代谢 子 通 路 中 疾病 基因 含量 较 多 时 ,这 个 
子 通 路 更 倾向 于 与 更 多 类 型 的 疾病 相关 ,如 图 8-20E 所 示 。 然 而 , 当 一 个 代谢 子 通 路 中 必要 基 
因 含量 较 多 时 ,这 个 子 通路 更 倾向 于 导致 更 少 的 疾病 发 生 , 如 图 8-20F 所 示 。 这 一 现象 可 能 反映 
了 大 部 分 疾病 的 发 生 不 会 破坏 必要 基因 丰富 的 通路 。 疾 病 - 代 谢 子 通路 全 局 关联 网 络 分 析 可 
以 从 系统 角度 帮助 理解 疾病 与 疾病 ,疾病 与 代谢 子 通路 .代谢 子 通路 与 代谢 子 通 路 之 间 的 关系 。 
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图 8-20 A 疾病 一 子 通 路 全 局 关联 网 络 
A. 节点 大 小 表示 节点 的 度 , 即 一 个 疾病 的 发 生 与 多 少 代 谢 子 通路 相关 或 一 个 
代谢 子 通路 可 能 导致 多 少 疾病 ; B. 网络 中 代谢 子 通路 的 度 分 布 ; C. 网 络 中 疾病 
节点 的 度 分 布 ; D .使 用 双向 聚 类 方法 对 网 络 进行 聚 类 的 结果 ; 元 素 中 橙色 表示 
对 应 的 疾病 和 子 通路 相关 ; 右 侧 的 颜色 条 中 的 颜色 表示 疾病 的 类 , 同 颜色 的 疾 
病 代 表 他 们 属于 相同 的 疾病 类 ;E. 代谢 子 通路 的 度 与 通路 中 的 疾病 基因 含量 
的 关系 ;F .代谢 子 通路 的 度 与 子 通路 中 的 必需 基因 含量 的 关系 
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复兴 焕 病 的 系统 遗传 学 ”看重 二 
分 析 


SYSTEM GENETICS ANALYSIS OF 
COMPLEX DISEASES 


疾病 是 机 体 在 遗传 和 环境 因素 共同 作用 下 ,机 体 稳 态 失衡 而 发 生 的 异常 生命 过 
程 ,其 表现 为 细胞 .组织 或 器 官 层 面 的 损害 作用 。 从 分 子 遗 传 学 角度 看 , 致 病因 素 包 括 
遗传 突变 、DINA 损 伤 和 异常 修复 、 调 控 兹 乱 、 基 因 表 达 或 蛋白 质 功 能 异常 等 ,往往 和 环 
境 因素 直接 或 间接 地 发 生 作 用 ,从 而 导致 机 体 产生 一 系列 功能 代谢 和 形态 结构 的 变 
化 ,并 由 此 产生 相应 的 症状 和 体征 

通常 我 们 把 疾病 发 生 关联 的 因素 分 为 内 因 和 外 因 , 内 因 主 要 是 染色 体 异 常 、 基 因 
剪接 异常 、 单 核 苷 酸 的 插入 缺失 变异 、 找 贝 数 变化 等 \DNA 修 饰 和 核 小 体 修饰 等 遗传 和 
表 观 遗传 变化 ,这 些 变化 可 能 直接 导致 机 体 功 能 先天 异常 ,或 使 机 体 对 外 界 刺 激 的 敏 
感性 发 生变 化 。 外 因 是 诱发 疾病 出 现 或 易 感 的 多 种 外 界 因 素 ,包括 感染 、 损 伤 、 环 境 、 
情绪 教育 和 社会 因素 等 , 当 有 具有 某 种 遗传 特质 的 人 接触 到 不 相 适 应 的 外 界 因素 时 , 疾 
病 的 发 病 率 可 能 成 倍增 加 。 随 着 现代 分 子 生物 学 和 医学 研究 的 不 断 发 展 ,尤其 是 人 类 
基因 组 计划 (human genome project, HGP ) 的 完成 和 国际 人 类 变异 组 计划 的 开展 ,积累 
了 大 量 的 疾病 分 子 水 平 知识 和 相应 研究 手段 ,使 我 们 不 仅 可 以 深入 到 高 通 量 分 子 遗 传 
学 层面 认识 疾病 本 质 , 而 且 还 可 能 利用 这 些 知识 探索 和 创造 疾病 诊疗 新 方法 、 新 技术 ， 
指导 新 的 药物 靶 标 发 现 。 








BT 
复杂 疾病 的 分 子 遗 传 学 特征 


Section 1 Molecular Genetics Character of Complex Diseases 


一 \ 孟 德尔 遗传 病 与 复杂 疾病 》》 


目前 所 知 的 大 部 分 疾病 与 遗传 因素 密切 相关 ,依据 疾病 与 不 同 遗 传 因素 之 间 的 联系 ,可 
以 将 疾病 进行 分 类 : 单 基因 病 、 多 基因 病 线粒体 病 及 染色 体 畸 变 所 引起 的 疾病 。 其 中 , 单 
基因 遗传 疾病 又 称 孟 德尔 遗传 病 , 即 医学 遗传 学 中 通常 研究 的 常 染色 体 显 性 遗传 病 、 隐 性 遗 
传 病 ,及 性 染色 体 连 锁 的 遗传 病 等 ,由 于 这 些 疾 病 一 般 发 病 率 极 低 (群体 发 病 率 低 于 万 分 之 
一 ), 且 有 较 强 的 肢体 致 残 或 致死 率 ,也 称 为 罕见 疾病 (rare disease )。 而 人 类 常见 疾病 (群体 
发 病 率 较 高 ), 如 肿瘤 , 心 脑 血管 疾病 .代谢 系统 疾病 、 神 经 系统 疾病 等 ,往往 不 是 由 单个 基因 
或 者 单 种 因素 决定 的 ,而 是 涉及 多 种 基因 环境 及 遗传 等 多 方面 因素 ,与 备 德 尔 遗传 病 相 比 
在 成 因 上 具有 显著 的 复杂 性 ,因此 称 为 复杂 疾病 ( complex disease )。 

为 使 疾病 研究 具有 系统 性 和 参照 性 ,人 们 很 早 就 开始 疾病 分 类 学 人 研究。 最早 的 疾病 
分 类 体系 创建 于 19 世 纪 50 年 代 , 并 在 1893 年 由 国际 统计 研究 所 出 版 了 《International List 
of Causes of Death), 世界 卫生 组 织 (WHO ) 于 1948 年 开始 负责 ICD( international statistical 
classification of diseases and related health problems ) 的 编写 任务 ,并 加 入 了 发 病原 因 信息 。 世 
界 卫生 大 会 (WHA ) 于 1967 年 通过 了 世界 卫生 组 织 对 疾病 的 命名 规则 ,并 要 求 其 成 员 国 使 用 
ICD 上 疾病 命名 规则 对 疾病 死亡 率 和 发 病 率 进行 统计 。ICD 疾 病 分 类 体系 按照 疾病 特征 将 
其 分 门 别 类 , 现 有 版 本 (ICD-10 ) 包 含 15.5 万 种 编码 。 各 个 国家 分 别 引 进 这 种 疾病 分 类 体系 
并 进行 改进 ,中 国 根 据 “ICD-10” 颁布 了 《第 二 次 国家 卫生 服务 调查 疾病 分 类 一 编码 表 》 对 
疾病 进行 了 分 类 , 共 19 类 : 中 传染 病 ; @) 寄 生 虫 病 ; 凶恶 性 肿瘤 ; OR PEM; 如 内 分 泌 疾病 
(营养 和 代谢 疾病 及 免疫 疾病 ); @ 血 液 和 造血 器 官 疾病 ; 精神 病 ; @ 神 经 系统 疾病 ; CORR 
及 附 器 疾病 ; 四 耳 和 乳 突 疾病 ,四 循环 系统 疾病 ; @ 呼 吸 系统 疾病 ; @ 消 化 系统 疾病 ; DBR 
生殖 系统 疾病 ; 四 妊娠 ; Ost 166 Ri VERAT ACE; 四 皮肤 和 皮下 组 织 疾 病 ; BULA A aR A 
统 和 结缔 组 织 疾 病 ; (9 损伤 和 中 毒 。 


二 、 复 杂 疾 病 的 分 子 系统 特征 》》 


与 孟 德 尔 遗传 病 相 比 ,复杂 疾病 具有 四 个 独特 的 分 子 遗传 特 征 。 第 一 ,复杂 疾病 是 多 基 
因 病 (ploygenic disorder )。 复 杂 疾 病 的 发 生 往往 与 多 个 基因 的 遗传 或 表达 变化 存在 联系 ,可 
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能 是 分 子 层面 多 个 基因 损伤 .变异 .失调 而 累积 产生 了 基因 产物 异常 (表达 数量 或 蛋白 质 结 
构 )、 代 谢 失调 或 信号 通路 异常 等 ,从 而 导致 机 体 的 宏观 变化 。 第 二 ,复杂 疾病 致 病 基 因 具 有 
微 效 性 ( minor effect )。 孟 德尔 遗传 病 的 发 生 往往 只 与 一 个 或 几 个 基因 的 变化 相关 ,具有 明 
显 的 主 效 基因 ,而 在 复杂 疾病 遗传 遗传 学 研究 中 ,很 难 发 现 一 个 或 几 个 具有 明显 致 病 作 用 的 
基因 ,每 个 基因 对 于 疾病 的 发 生 均 具有 较为 温和 的 作用 效果 ,疾病 的 发 生 是 一 个 从 量变 到 质 
变 的 过 程 。 第 三 ,复杂 疾病 具有 遗传 异 质 性 ( heterogeneity ) 特征 。 在 临床 上 ,遗传 异 质 性 是 
指 不 同 的 成 因 可 能 导致 相同 的 临床 症状 ,与 此 类 比 ,在 分 子 遗 传 学 层面 ,复杂 疾病 的 异 质 性 
指 的 是 分 子 层面 的 某 些 并 不 完全 相同 的 变化 累积 可 能 导致 同一 个 疾病 的 发 生 , 这 与 人 群 种 
族 差 异 .基因 功能 关联 性 、 环 境 因素 刺激 等 密切 相关 。 第 四 ,复杂 疾病 相关 基因 存在 上 位 效 
应 ( epistasis ) 或 相互 作用 。 复 杂 疾 病 的 发 生 与 众多 基因 相关 ,但 这 些 基因 之 间 并 不 是 孤立 
发 生 作用 的 ,而 存在 紧密 的 调控 或 互 作 关系 ,这 种 关系 可 以 将 作为 启动 点 的 几 个 基因 的 作用 
放大 到 某 一 生物 学 过 程 或 生物 通路 层面 ,将 分 子 异 常 引 入 到 宏观 机 体 表现 。 复 杂 疾 病 的 分 
子 遗 传 特征 决定 了 其 病因 学 研究 过 程 的 艰巨 性 。 随 着 基因 表达 检测 技术 、SNP 检 测 技术 .和 蛋 
白质 检测 技术 、 表 观 遗 传 检测 技术 等 高 通 量 分 子 标记 检测 方法 的 迅速 发 展 ,人 们 已 经 开始 着 
眼 于 基因 组 范围 系统 地 研究 复杂 疾病 的 发 生 过 程 ,从 这 些 方面 入 手 开 发 快速 有 效 的 生物 信 
息 学 分 析 工 具 和 方法 具有 重要 的 意义 。 

遗传 因素 之 外 ,环境 因素 对 于 复杂 疾病 的 形成 有 着 非常 重要 的 作用 。 据 世界 卫生 组 织 
报告 ,全 球 超过 20% 的 疾病 是 与 环境 暴露 直接 关联 的 。 每 年 约 有 1300 万 人 死亡 归 因 于 环境 
的 不 适应 性 。 在 人 类 分 布 最 不 发 达 地 区 , 近 三 分 之 一 疾病 可 以 归 因 于 环境 因素 。 同 时 ,报告 
还 指出 ,在 造成 人 类 死亡 率 最 高 的 几 种 疾病 中 (如 心血 管 疾病 、 呼 吸 系统 炎症 、 癌 症 \ 慢 性 阻 
塞 性 肺病 等 ),85% 以 上 的 疾病 受 环境 因素 影响 。 环 境 导致 人 类 疾病 的 发 生 主要 体现 在 两 个 
方面 。 首 先 , 某 些 环境 条 件 可 能 会 诱导 基因 发 生 突变 或 表达 变化 引发 疾病 。 比 如 癌 基 因 在 
通常 情况 下 处 于 抑制 状态 , 当 细 胞 被 紫外 线 照射 或 者 受到 异常 环境 因素 刺激 , 癌 基 因 就 可 能 
从 原来 的 抑制 状态 变 成 激活 状态 ,进而 使 得 正常 细胞 发 生 癌变 转化 为 癌 细 胞 。 其 次 ,人 类 个 
体 本 身 的 遗传 差异 在 一 定 程度 上 决定 了 人 们 对 环境 的 适应 性 差异 , 即 基因 型 差异 影响 到 对 
环境 改变 的 敏感 性 。 越 来 越 多 的 实验 证 明基 因 与 环境 之 间 的 相互 作用 在 复杂 疾病 的 发 生 或 
发 展 过 程 中 起 着 关键 性 作用 ,它们 之 间 的 相互 作用 是 极其 复杂 和 非 线 性 的 。 一 个 基因 在 不 
同 的 环境 中 会 产生 不 同 甚至 是 完全 相反 的 表 型 ,因此 单纯 从 遗传 角度 去 研究 疾病 是 不 足以 
全 面 了 解 复 杂 疾 病 的 发 生发 展 过程 的 。 为 了 全 面 、 系 统 地 研究 环境 对 于 疾病 的 影响 ,科学 
家 们 开展 了 环境 基因 组 计划 (environment genome project, EGP ), 识 别 哪些 人 类 基因 能 增加 对 
环境 相关 疾病 的 个 体 易 感性 。 





三 、 重 要 的 复杂 疾病 数据 库 >> 


(一 ) 人 类 和 孟 德 尔 遗传 在 线 (OMIM) 


MIM( Mendelian inheritance in man ) 是 一 个 将 遗传 病 进 行 分 类 ,并 与 人 类 基因 建立 相互 
联系 的 疾病 研究 数据 库 。 它 的 在 线 版 本 是 人 类 孟 德 尔 遗 传 在 线 ( OMIM , http: //www.ncbi. 
nlm.nih.gov/omim )。OMIM 是 目前 最 权威 的 人 类 遗传 疾病 数据 库 , 为 临床 医生 和 科研 人 员 


玉 370 SAH 复杂 疾病 的 系统 遗传 学 分 析 
CHAPTER 9 SYSTEM GENETICS ANALYSIS OF COMPLEX DISEASES 


提供 了 权威 可 靠 的 遗传 疾病 、 表 型 相关 基因 或 染色 体位 点 信息 ,有 着 广泛 的 应 用 领域 ,对 于 
临床 医生 和 科研 人 员 来 说 是 一 种 重要 的 网 络 资源 。 例 如 ,临床 医生 可 以 将 患者 的 临床 表 型 
输入 到 数据 库 查 找 相 关 的 疾病 信息 ,又 可 以 针对 某 些 感 兴趣 的 基因 或 者 疾病 进行 搜索 。 在 
OMIM 中 搜索 基因 和 疾病 时 ,又 可 以 同时 查询 到 基因 和 疾病 相关 的 信息 如 基因 的 序列 ,染色 
体位 置 ,以 及 疾病 相关 的 参考 文献 等 。OMIM 提 供 了 友好 的 使 用 界面 ,用 户 可 以 通过 MIM 号 
CID )\ 疾 病名 、 基 因 名 或 者 疾病 的 一 些 表 征 进行 搜索 (图 9-1 )。 





University 











* Enter one or more search terms 
© Use Limits to restnct your search by search field, chromosome, and other criteria 
* Use Index to browse terms found in OMIM records 

* Use History to retrieve records from previous searches, or to combine searches 


| OMM” - Online Mendelian Inheritance in Man * 


Welcome to OMIM ® , Online Mendelian Inheritance in Man * . OMIM is a comprehensive, authoritative, and timely compendium of human 
genes and genetic phenotypes. The full-text, referenced overviews in OMIM contain information on all known mendelian disorders and over 
12,000 genes. OMIM focuses on the relationship between phenotype and genotype. It is updated daily, and the entnes contain copious links 
to other genetics resources 


This database was initiated in the early 1960s by Dr. Victor A McKusick as a catalog of mendelian traits and disorders, entitled Mendelian 
Inheritance in Man (MIM). Twelve book editions of MIM were published between 1966 and 1998. The online version, OMIM, was created 
m 1985 by a collaboration between the National Library of Medicine and the Wiliam H. Welch Medical Library at Johns Hopkins. It was 
made generally available on the internet starting in 1987. In 1995, OMIM was developed for the World Wide Web by NCBI, the National 
Center for Biotechnology Information 


OMIM is authored and edited at the McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, under 
the direction of Dr. Ada Hamosh 


Allied 


图 9-1 OMIM 在 线 搜索 界面 
在 输入 搜索 关键 词 并 运行 后 ,网 站 会 在 搜索 结果 中 列 出 与 搜索 记录 最 相近 的 20 个 记录 ， 


读者 可 依照 个 人 习惯 更 改 显 示 记 录 的 数目 。 在 OMIM 数 据 库 中 ,每 一 个 记录 都 会 有 唯一 的 6 
位 数 编码 ,这 种 编码 可 以 表示 这 种 遗传 病 是 常 染色 体 显 性 ( 隐 性 ) 遗传 X 连 锁 还 是 Y 连 锁 等 ， 


详 见 表 9-1。 
#9-1 OMIM 编 码 及 其 代表 的 数据 类 型 
OMIM 编 号 范围 遗传 方式 
100000-199999 常 染色 体 显 性 遗传 或 表 型 (于 1994 年 5 月 15 日 创建 ) 
200000-299999 常 染 色 体 隐 性 遗传 或 表 型 (于 1994 年 5 月 15 日 创建 ) 
300000-399999 X 连 锁 位 点 或 表 型 
400000-499999 Y 连 锁 位 点 或 表 型 
500000—599999 线粒体 位 点 或 表 型 
600000- 染色 体位 点 或 表 型 (于 1994 年 5 月 15 日 创建 ) 


在 大 部 分 OMIM 编 码 前 会 有 一 些 特殊 的 符号 来 分 别 表示 不 同 的 含义 。 其 中 ,“*” 表 示 本 
条 目 为 某 个 基因 的 系统 注释 ; # ”表示 本 条 目 为 某 个 表 型 的 系统 说 明 ; +” 表示 本 条 目 代表 
基因 型 与 表 型 之 间 的 关系 ;“%” 表示 某 个 未 知 分 子 机 制 的 疾病 表 型 或 相关 位 点 ; 条 目前 无 
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任何 标记 表示 此 疾病 表 型 可 能 存在 遗传 相关 位 点 ,但 未 经 证 实 ;“” 表 示 该 记录 已 不 存在 或 
者 被 其 他 记录 所 代替 。 此 外 , OMIM 数 据 库 还 提供 批量 下 载 ,用 户 可 以 通过 FTP 登 录 方 式 下 
载 OMIM 中 的 全 部 数据 ( ftp: //ftp.ncbi.nih.gov/repository/OMIM ), 包 括 OMIM 全 部 文本 信息 文件 
( omim.txt.Z ), OMIM 中 收录 的 基因 ( genemap )、 基 因 说 明文 件 ( genemap.key ), 以 及 疾病 与 基因 
对 应 关系 文件 ( morbidmap )。 

另外 , OMIM 还 提供 genemap 和 morbidmap 的 网 络 查询 形式 。 这 里 以 Alzheimer” s Disease 
C AD ) 为 例 ,简单 介绍 一 下 OMIM 数 据 库 的 使 用 。 我 们 在 OMIM 查 询 框 中 输入 “Alzheimer”s 
Disease” 就 可 以 在 OMIM 上 得 到 这 种 疾病 相关 信息 。 读 者 也 可 以 输入 该 疾病 的 简写 形式 AD， 
疾病 表征 (如 Senile Dementia )\ 或 者 与 该 疾病 相关 的 基因 名 ( 4POE4 ), 查 看 检索 结果 ( AE 
词 影响 ,结果 略 有 差别 )。 

其 中 每 一 个 记录 表示 在 OMIM 中 与 查询 信息 相关 的 内 容 。 另 外 ,我 们 可 以 在 “Display” 
中 选择 查询 结果 的 显示 方式 .条 目 数 。 选 择 任意 一 条 记录 都 包含 了 如 下 信息 : MIM 号 (ID 入 
查询 疾病 的 名 称 ( 别 名 ), 与 疾病 相关 遗传 信息 的 一 般 性 描述 ,有 文献 支持 的 临床 表征 ,生化 
特征 ,发病 机 制 ,遗传 性 及 诊断 ,文献 支持 的 基因 信息 ,分 子 遗传 学 群体 遗传 学 等 文献 支持 
”材料 。 最 后 ,提供 了 大 部 分 的 研究 参考 文献 。 选 择 页 面 上 的 Gene map locus 后 面 的 基因 区 段 ， 
会 显示 出 该 区 段 在 染色 体 图 的 详细 信息 。 主 要 的 内 容 包 括 如 下 几 方 面 的 图 信息 : 基因 序列 
信息 、 表 型 信息 (包括 数量 性 状 位 点 )、 OMIM 疾 病 记 录 细胞 遗传 上 的 基因 分 布 等 详细 信息 。 
其 中 部 分 数据 可 以 下 载 或 查看 。 


(二 ) 遗传 关联 数据 库 (genetic association database, GAD) 





GAD 是 由 美国 国立 卫生 研究 院 ( national institutes of health, NIH ) 的 Kevin Becker 及 其 同 
事 于 2004 年 开发 维护 的 数据 库 , 该 数据 库 中 存储 了 大 量 的 人 类 复杂 疾病 相关 的 基因 及 多 态 
性 信息 ,为 研究 人 员 从 大 量 的 多 态 性 数据 中 快速 地 识别 出 疾病 相关 的 多 态 提 供 了 方便 。 数 
据 库 中 的 信息 来 源 于 对 目前 已 有 的 关联 分 析 结 果 的 搜集 和 整理 ,这 些 信 息 是 以 基因 为 核心 
的 ,也 就 是 说 ,数据 库 中 的 每 条 记录 对 应 的 是 一 个 基因 或 者 染色 体位 点 ,如 果 我 们 要 研究 某 
一 特定 疾病 6 个 相关 的 基因 ,那么 我 们 会 在 这 个 数据 库 中 得 到 6 条 相应 的 记录 。 该 数据 库 允 
许 所 有 用 户 查看 提交 记录 。 

可 以 通过 网 址 http: //geneticassociationdb.nih.gov/ 访问 该 数据 库 。 用 户 可 以 在 线 查询 某 
种 特定 遗传 病 相关 的 基因 或 某 个 基因 相关 的 疾病 的 信息 ,也 可 以 在 免费 注册 后 对 整个 数据 
库 中 的 数据 进行 下 载 。 截 至 目前 ,数据 库 中 的 记录 数 已 经 达到 了 39 930 条 。 

GAD 数 据 库 主要 包含 三 部 分 功能 (位 于 GAD 主 页 左 侧 ): 数据 视图 部 分 ; 数据 查询 部 分 ; 
数据 资源 部 分 。 数 据 视 图 部 分 主要 是 为 用 户 从 疾病 角度 、 基 因 角 度 、SNP 角 度 以 及 基因 与 环 
境 互 作 的 角度 来 查询 疾病 和 基因 之 间 的 关联 关系 。 数 据 查 询 部 分 提供 了 简单 搜索 .高 级 搜 
索 .批量 搜索 以 及 通过 基因 来 查看 所 有 涉及 的 疾病 的 种 类 和 已 确实 被 证 明基 因 和 疾病 相关 
的 记录 。 数 据 资 源 部 分 包括 用 户 提交 疾病 基因 关联 记录 ,对 GAD 数 据 库 的 意见 以 及 数据 下 
载 等 。 

首先 ,用 户 可 以 通过 数据 库 页 面 的 左 侧 的 相关 链接 选择 不 同 的 角度 对 数据 表 进 行 查询 ， 
GAD 会 根据 用 户 的 查询 从 数据 表 中 选择 相应 的 字段 返回 结果 页 面 ,并 且 每 条 记录 的 第 一 个 
字段 都 有 相应 的 详细 的 链接 通过 该 链接 ,用 户 可 以 得 到 数据 表 中 存储 的 与 查询 相关 的 全 部 
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信息 。 该 数据 库 中 存储 的 基因 (多 态 ) 与 疾病 ( 表 型 ) 间 的 关系 有 一 部 分 是 通过 关联 分 析 得 
到 的 ,因此 数据 表 中 不 仅 包含 显著 与 疾病 发 生 关联 的 基因 的 记录 。 同 时 也 包含 了 关联 关系 
不 显著 的 记录 ,数据 表 中 的 字段 “Association ? Y/N” 表 明了 具体 的 关系 ,该 字段 有 三 种 取 值 : 
Y、N 和 空 ,分 别 表示 该 记录 的 相应 研究 中 的 基因 与 疾病 显著 关联 不 显著 关联 以 及 未 明确 是 
否 关联 。 以 疾病 角度 查询 ,我们 可 以 得 到 特定 疾病 相关 的 基因 Symbol 染色体 区 段 、 基因组 
定位 、 对 应 的 OMIM ID .基因 与 疾病 是 否 关联 以 及 关联 显著 性 水 平 的 z 值 和 相应 参考 文献 的 
信息 ,另外 CAD 还 给 出 了 该 疾病 所 属 的 疾病 类 信息 以 及 与 其 他 数据 库 的 链接 ; 以 基因 角度 查 
询 , 我 们 可 以 得 到 基因 相关 的 疾病 表 型 描述 、 所 属 疾病 类 以 及 关联 显著 水 平和 对 应 参考 文献 
的 信息 ,同时 还 可 以 得 到 该 基因 在 其 他 一 级 基因 数据 库 中 的 了 D、 名 称 、 定 位 等 基本 信息 以 及 
与 其 他 数据 库 的 链接 ; 另外 ,用 户 还 可 以 从 染色 体 角度 出 发 ,或 者 通过 参考 文献 .环境 因素 等 
方面 对 数据 表 进 行 在 线 查 询 , 当然, 我们 也 可 以 选择 “All ”同时 从 多 个 角度 对 数据 库 中 的 相 
关 信息 进行 查询 。 

其 次 ,用 户 可 以 选择 "Simple Search" ,利用 关键 字 实 现 对 数据 库 中 相关 记录 的 简单 查 
if], TE "Simple Search” 中 ,用 户 只 需要 提交 以 空格 分 隔 的 关键 字 , 并 选 出 查询 内 容 的 种 类 
( Disease, Gene View, CH-SNP-HapMap 和 Reference )。 还 可 以 选择 “Advanced Search” 增 加 
查询 限定 条 件 进 行 数 据 记 录 的 高 级 搜索 ,包括 更 新 时 间 ,与 疾病 是 否 关 联 , 疾 病 表 型 ,疾病 种 
类 等 。 如 果 某 些 限定 条 件 选 择 空 白 则 会 列 出 相关 条 件 下 的 所 有 记录 。 

GAD 还 支持 对 基因 的 批量 查询 ,用 户 可 以 把 小 于 300 个 基因 以 HUGO 中 的 基因 Symbol， 
UNIGENE ID ,或 ENTREZ GENE ID 的 形式 形成 一 个 基因 列表 ,并 通过 该 列表 实现 对 GAD 中 信 
息 的 批量 查询 。 这 样 , GAD 就 可 以 分 析 高 通 量 实验 ( microarray、cDNA sequencing, SAGE% ) 
得 到 的 基因 与 人 类 疾病 之 间 的 关系 。 

选择 “Browser All” 链 接 可 以 得 到 结果 ,返回 了 数据 库 中 的 所 有 基因 和 与 各 类 疾病 间 
的 关系 ,如 第 一 条 记录 HESX1 基 因 , 它 在 数据 库 中 共存 在 3 条 相关 记录 ,其 中 与 代谢 类 疾病 
( MET ) 相关 的 记录 有 1 条 ,与 其 他 类 疾病 相关 的 记录 有 2 条 。 

用 户 还 可 以 选择 “Positive Only” 以 筛选 得 到 疾病 与 基因 间 存 在 显著 关联 的 记录 。 

同时 ,用 户 还 可 以 通过 "Add Record ”页 面 实现 向 数据 库 中 提交 记录 ; 通过 “Download” 
页 面 实现 对 数据 库 中 数据 的 下 载 。 

目前 该 数据 库 已 经 得 到 了 研究 人 员 的 广泛 应 用 ,例如 ,2009 年 Liu 等 人 发 表 在 BMC 
Bioinformatics 杂 志 上 的 文章 "The ‘etiome’ : identification and clustering of human disease 
etiological factors” 中 ,作者 为 了 研究 影响 疾病 的 因素 从 GAD 数 据 库 中 获取 了 与 1034 种 复杂 
疾病 相关 的 1100 个 基因 的 相关 数据 ; 2008 年 Yang 等 人 发 表 于 BMC Bioinformatics 杂 志 上 的 
X # “An integrated database-pipeline system for studying single nucleotide polymorphisms and 
diseases” 为 了 得 到 一 个 可 用 于 研究 遗传 变异 与 疾病 间 关 系 , 也 从 CAD 中 提取 了 疾病 相关 信 
息 进 行 数 据 整 合 。 


(=) 癌症 基因 组 剖析 计划 数据 库 (CGAP) 


癌 基 因 组 剖析 计划 ( cancer genome anatomy project, CGAP ), 是 一 项 由 美国 癌症 研究 所 
( national cancer institute, NCI ) 于 1996 年 发 起 并 建立 和 主持 的 交叉 学 科 计 划 。 其 目的 在 于 产 
生 用 于 解码 肿瘤 细胞 的 分 子 结构 所 需 的 信息 ,并 创建 一 系列 技术 工具 以 挖掘 与 肿瘤 相关 的 
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基因 、 和 蛋白 及 其 他 的 生物 标记 ,最 终 为 癌症 的 研究 提供 信息 资源 和 技术 方法 。CGAP 的 总 体 
目标 是 检测 正常 、 癌 前 病变 以 及 瘤 细胞 的 基因 表达 谱 , 使 得 研究 人 员 可 以 借助 于 这 些 表 达 数 
据 描 述 出 肿瘤 形成 过 程 中 的 一 系列 细胞 分 子 特征 ,最 终 改善 对 患者 的 检测 .诊断 和 治疗 。 该 
计划 通过 与 全 世界 范围 内 科学 家 的 合作 来 增强 其 信息 的 科学 性 和 完整 性 ,为 癌症 相关 科研 
人 员 提 供 方便 。 

CGAP 被 分 为 五 个 部 分 ,每 一 个 都 有 它 自 己 的 目的 、 信 息 学 工具 和 资源 。 人 类 肿瘤 基因 
索引 (the human tumor gene index, hTGI ) 指明 了 在 人 类 肿瘤 发 生 过 程 中 的 基因 表达 ; 分 子 表 
达 谱 ( molecular profiling, MP ) 从 分 子 水 平分 析 人 类 组 织 样本 的 概念 ; 癌症 染色 体 变异 计划 
(the cancer chromosome aberration project, CCAP ) 描述 了 同 亚 性 转移 相关 的 染色 体 变异 ; 遗 
传 注解 索引 ( the genetic annotation index, GAI ) 指明 和 描绘 了 同 癌症 相关 的 多 态 性 ; 小 鼠 肿 
Je 3 A] 285 | (the mouse tumor gene index, mTGI ) 确定 了 在 小 鼠 肿 瘤 发 生 过 程 中 的 基因 表达 。 

用 户 可 以 通过 该 网 址 http: //cgap.nci.nih.gov/ 对 CGAP 的 网 站 进行 访问 ,并 通过 左 侧 导 航 
栏 CGAP Info 中 的 相关 链接 了 解 更 多 有 关 该 计划 的 更 为 详细 信息 。 该 网 站 提供 了 七 个 相关 
模块 用 以 对 所 有 CGAP 中 包含 的 数据 生物 信息 学 分 析 工 具 以 及 生物 学 相关 资源 的 查询 和 获 
取 , 借 助 于 这 些 模块 用 户 可 以 实现 对 生物 学 问题 的 计算 机 模拟 ,从 而 快速 地 获得 问题 的 解决 
方案 。 进 入 “Genes” 的 标签 页 ,可 以 得 到 页 面 ,该 页 面 中 提供 了 多 种 可 用 于 对 癌症 相关 基因 
进行 查询 和 分 析 的 工具 ,如 利用 “Batch Gene Finder” 可 以 实现 对 多 个 基因 的 批量 查询 ,利用 
“Nucleotide BLAST "工具 可 以 找 出 给 定 核 背 酸 序 列 中 最 有 可 能 的 候选 基因 等 ,对 于 查询 到 的 
每 个 基因 , CGAP 都 会 提供 一 个 包含 NCBI 以 及 NCI 的 多 个 子 库 中 有 关 该 基因 的 描述 信息 在 内 
的 “Gene Info” 页 面 。 

下 面 我 们 以 使 用 Gene Finder 工 具 为 例 简 要 介绍 如 何在 CGAP 中 实现 对 癌症 相关 基因 的 
查询 ,并 对 查询 结果 进行 简要 解释 。 

Gene Finder 对 应 的 标签 ,用 户 可 以 利用 该 工具 通过 输入 某 个 特定 基因 的 Cene Symbol、 
GenBank 数 据 库 中 的 accession number、UniGene 数 据 库 中 的 cluster ID 或 者 Entrez Gene ID 来 
查询 基因 的 相关 信息 。 也 可 以 通过 限定 组 织 、 功 能 .定位 等 方面 的 条 件 来 实现 对 相关 基 
因 的 查询 。 例 如 要 查询 与 人 类 的 结肠 (colon ) 组 织 相关 的 基因 ,我 们 首先 应 在 选择 物种 
( Select organism ) 这 一 下 拉 列 表 中 选择 “Homo sapiens”( 目 前 CGAP 只 支持 对 人 类 和 小 鼠 Mus 
musculus 两 个 物种 的 查询 ), 并 在 Tissue Type 对 应 的 下 拉 列 表 中 选择 Colon ,提交 查询 后 可 返回 
一 个 包含 所 有 结果 的 Gene List 页 面 ,对 于 感 兴趣 的 基因 ,我们 还 可 以 通过 页 面 中 对 应 记录 的 
最 后 一 栏 “Gene Info” 链接 去 获取 有 关 该 基因 的 更 为 详细 的 信息 。 对 于 结果 列表 中 的 第 一 
个 基因 A1CF, CGAP 中 包含 的 有 关 该 基因 的 全 部 信息 ,其 中 包含 A1CF 在 其 他 数据 库 中 的 ID 
名 称 ,并 提供 其 他 数据 库 对 该 基因 的 描述 链接 ,同时 还 包含 了 A1CF 相 关 的 序列 .表达 ,细胞 
遗传 学 定位 、 染 色 体 定位 、 对 应 蛋白 \ 同 源 物 以 及 相关 的 G0 注释 等 多 方面 的 信息 。 

CGAP 中 还 包含 有 染色 体 ( Chromosomes ), 2H 24( Tissues )、SAGE 精 灵 ( SAGE Genie )、 通 
路 ( Pathways )、 工 具 ( Tools ) ARNAF ÈC RNAi ) 六 个 模块 。 与 Genes 模 块 类 似 , 每 个 模块 都 
提供 了 很 多 相关 的 查询 分 析 工 具 , 可 支持 对 CGAP 中 包含 的 染色 体 畸 变 、 表 达 数 据 、 和 蛋白 复合 
物 .生物 学 通路 等 信息 在 内 的 多 方面 内 容 进 行 搜索 ,并 可 以 根据 查询 得 到 的 结果 做 进一步 更 
深入 的 分 析 研 究 。 特 别 是 RNAi 模 块 ,其 中 收录 了 靶 向 癌症 相关 基因 的 RNA 干 扰 结构 ,并 包 
含有 已 经 证 实 的 靶 向 癌 基 因 的 短发 卡 RNA( short hairpin RNA, shRNA )。 
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另外 , CGAP 还 允许 用 户 对 其 中 的 数据 资源 进行 下 载 , 在 CGAP 主 页 左 侧 导 航 栏 中 包含 有 
CGAP Data 项 ,该 项 中 的 内 容 Download 就 是 数据 下 载 页 面 的 链接 ,下载 页 面包 含 了 人 和 小 鼠 
两 个 物种 的 基因 注释 基因 表达 以 及 相关 的 一 些 文库 中 的 数据 。 

CGAP 计 划 还 有 另外 一 个 目标 ,就 是 建立 一 套 完 整 的 基因 及 其 变异 目录 ,这 些 目录 不 仅 
有 利于 评价 癌症 的 危险 程度 ,而 且 可 以 根据 遗传 变异 确定 预防 或 治疗 策略 ,最 终 根据 分 子 
特征 达到 治疗 的 目的 。 目 前 CGAP 建 立 的 注释 基因 索引 包括 利用 表达 序列 标签 ( Expressed 
Sequence Tags, EST ) 及 基因 注释 等 途径 建立 的 人 和 小 鼠 的 肿瘤 基因 索引 和 用 于 区 分 鉴定 与 
肿瘤 有 关 的 基因 的 遗传 变异 的 注释 索引 。CGAP 还 建立 了 许多 cDNA 文库 ,不 仅 包 括 有 全 瘤 
组 织 文库 ,也 包括 癌症 发 展 过 程 中 不 同 阶 段 的 细胞 cDNA 文 库 。 同 时 CGAP 也 提供 了 诸多 资 
源 如 克隆 、BAC 及 技术 方法 和 检索 工具 等 ,为 肿瘤 研究 提供 了 一 个 多 学 科 的 综合 平台 。 

CCAP 和 蕴涵 了 大 量 有 用 的 信息 ,目前 ,已 有 许多 科研 工作 者 成 功 地 利用 这 些 信息 实现 了 
对 肿瘤 的 研究 ,如 Loging 等 用 数据 库 及 快速 表达 筛选 方法 ,通过 CCAP 鉴 定 胶 质 瘤 潜 在 的 肿瘤 
标志 和 肿瘤 抗原 ,获得 了 有 意义 的 结果 。 
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Section 2 Genome Variations and Complex Disease Mapping 


一 、 变 异 组 学 与 人 类 疾病 》》 


人 类 疾病 的 发 生 是 多 种 因素 共同 作用 的 结果 。 绝 大 多 数 常 见 疾病 ,如 糖尿 病 、 癌 症 、 心 
脏 病 .精神 性 疾病 等 具有 非常 强 的 家 族 聚 集 特征 ,表明 遗传 因素 在 疾病 形成 中 有 重要 作用 ; 
而 同一 家 族 某 些 成 员 发 病 . 另 一 些 成 员 不 发 病 , 以 及 同一 种 疾病 在 不 同 个 体 中 具有 不 同 的 严 
重 程度 和 表现 症状 ,这 些 又 体现 了 常见 疾病 的 多 因素 特征 。 事 实 上 , 现 有 的 研究 提供 了 大 量 
的 证 据 显 示 常 见 疾病 遗传 上 的 复杂 性 ,认为 常见 疾病 是 众多 基因 共同 作用 的 结果 ,而 且 人 与 
人 之 间 在 疾病 发 生 中 的 差异 很 大 程度 上 可 以 通过 遗传 变异 来 解释 ,并 在 此 基础 上 提出 著名 
的 “常见 疾病 ,常见 变异 ” 假说 。 

我 们 知道 ,任意 两 个 不 相关 个 体 的 DNA 序 列 有 99.8% 是 一 致 的 ,而 剩 下 的 0.2% 由 于 包含 
了 遗传 上 的 差异 因素 ,造成 人 们 不 同 的 生理 表 型 . 唑 患 疾病 的 风险 及 不 同 的 药物 反应 ,这些 
差异 在 人 类 多 样 性 形成 中 也 具有 同等 重要 的 意义 。 这 0.2% 的 差异 在 基因 组 序列 中 具有 不 
同 的 类 型 和 作用 形式 。 其 中 ,不 同 个 体 DNA 序 列 上 的 单个 碱 基 的 差异 FRE CIE BR AS 
性 ( single nucleotide polymorphisms ,SNPs ,图 9-2A ), 例 如 , 某 些 人 的 染色 体 上 某 个 位 置 的 碱 
基 是 A, 而 男 一 些 人 的 染色 体 的 相同 位 置 上 的 碱 基 则 是 6, 而 同一 位 置 上 的 每 个 碱 基 类 型 叫 
做 一 个 等 位 ( allele ), 除 性 染色 体外 ,每 个 人 体内 的 染色 体 都 有 两 份 , 即 我 们 常 说 的 同 源 染 色 
体 ,一 对 同 源 染 色 体 上 的 两 个 等 位 的 组 合 叫 做 基因 型 ( genotype, 图 9-2B )。 对 上 述 SNP 位 点 
言 ,一 个 人 的 基因 型 有 三 种 可 能 性 ,分 别 是 AA, AG 或 GG。 而 检定 基因 型 的 过 程 , 称 作 基因 
分 型 ( genotyping )。 由 于 SNP 在 人 群 中 具有 最 大 的 数量 和 最 广泛 的 分 布 , 且 易 于 分 型 ,已 经 成 
为 现代 遗传 变异 与 复杂 性 状 研 究 中 最 重要 的 研究 对 象 ,也 是 生物 医学 、 农 业 、 冀 牧 业 研究 中 
非常 重要 的 研究 工具 。 

如 果 将 世界 上 所 有 人 看 作 一 个 群体 ,那么 全 人 类 中 大 约 存在 一 千 万 个 SNP 位 点 ,这 些 
SNP 绝 大 多 数 呈 现 二 态 性 ,并 且 具 有 不 同 的 等 位 频率 ,我 们 将 在 某 个 研究 群体 中 出 现 较 少 的 
等 位 频率 称 作 最 小 等 位 频率 ( minor allele frequency, MAF ), 并 以 此 将 SNP 划 分 为 常见 和 罕见 
两 类 ,一 般 说 来 ,常见 的 SNP 最 小 等 位 频率 应 当 大 于 5%( 也 有 文献 定 为 1% ), 具 有 比较 广泛 的 
群体 分 布 ,与 个 体 表 型 差异 和 疾病 易 感 有 关 ; 而 罕见 的 SNP 往 往 是 某 些 单 基因 病 或 偶发 疾病 
的 承载 者 。 由 于 减 数 分 裂 过 程 中 ,染色 体 发 生 重组 的 位 置 具有 选择 性 ,染色 体 上 距离 越 近 的 
SNP 越 倾向 于 以 一 个 整体 遗传 给 后 代 , 这 样 ,我 们 把 位 于 染色 体 上 某 一 区 域 的 一 组 相互 关联 
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的 SNP 称 作 一 个 连锁 块 (linkage block ), 这 是 我 们 将 SNP 作 为 一 种 重要 的 遗传 标记 进行 复杂 
性 状 和 复杂 疾病 定位 的 分 子 基础 。 

除了 从 频率 的 角度 对 SNP 进 行 划 分 ,并 在 此 基础 上 进行 基于 统计 思想 的 遗传 定位 分 析 


A SNP SNP SNP SNP 

Y Y Y 
染色 体 1 AACACGCCA....TTCGGGGTC.... AGTCGACCG.... 
染色 体 2 AACACGCCA....TTCGAGGTC.... AGTCA ACCG.... 
染色 体 3 AACATGCCA....TTCGGGGTC.... AGTCA ACCG.... 
染色 体 4 AACACGCCA....TTCGGGGTC.... AGTCGACCG.... 

B 

基因 型 个 体 1 AACACIGCCA....TTCGGIGGTC.... AGTCGACCG.... 
AACACGCCA....TTCGAGGTC.... AGTCA ACCG.... 





Atk 2 AACATIGCCA....TTCGGIGGTC.... AGTCA|ACCG.... 
AACACIGCCA....TTCGGGGTC.... AGTCGACCG.... 


C CC/TCITI ) (GAIGGIS V) CGA/AGINA ) 


C 单 体型 ee ——— 


CTCAAAGTACGGTTCAGGCA 
TTGATTGIECGCAACAIGITAATA 
CCCGATCTGTGATACTGGTG 
TCGAITTCIEGCGGTTIGIAGACA 


D Tag SNP Y Y Y 
A T c 

一 一 一 

G C G 


图 9-2 SNP. 基 因 型 . 单 体型 与 Tag SNP 
A 图 中 彩色 标记 出 不 同 的 SNP 位 点 ,及 其 在 不 同 个 体 中 的 等 位 情况 ; B 图 显示 同一 个 体 某 个 基因 座 上 两 个 等 位 
位 点 组 合 , 即 基因 型 ; C 图 中 将 某 个 个 体 的 同一 条 染色 体 上 的 SNP 放 在 一 起 ,将 其 定义 为 单 体型 ,这 里 的 单 体 
型 是 一 个 狭义 的 概念 ,也 是 本 章 研究 的 单 体型 含义 ; D 图 是 在 单 体型 基础 上 提出 的 基于 群体 分 布 的 单 体型 标 
签 , 即 Tag SNP 


外 ,由 于 SNP 本 身 数量 众多 、 分 布 广泛 等 特点 , 它 还 具有 非常 重要 的 功能 特性 。 我 们 习惯 
于 将 分 布 在 基因 (编码 或 非 编 码 ) 区 域 ,并 且 能 够 直接 影响 基因 表达 数量 或 基因 产物 (和 蛋 
白质 或 RNA ) 结构 的 SNP 称 为 非 同 义 SNP( non-synonymous SNP )。 在 实际 研究 中 ,还 发 
现 不 同 SNP 之 间 具 有 潜在 的 相互 联系 ,同一 个 基因 或 同一 个 生物 学 过 程 中 多 个 SNP 的 互 
相 作用 能 够 起 到 从 量变 到 质变 的 效果 ,直接 影响 生理 指标 .病理 发生 和 药物 反应 的 差异 
性 。 这 些 提示 我 们 从 功能 和 生物 学 系统 的 角度 研究 SNP 在 复杂 性 状 和 复杂 疾病 中 的 作 
用 非常 重要 。 

人 类 的 遗传 变异 是 多 样 的 ,有 些 变异 之 间 也 许可 以 通过 连锁 不 平衡 原理 由 SNP 进 行 发 
现 和 解释 ,但 有 些 变异 本 身 行使 着 复杂 的 生理 和 病理 学 功能 ,是 SNP 所 不 能 替代 的 。 这 里 简 
要 介绍 一 下 人 类 染色 体 中 其 他 的 遗传 变异 ,涉及 最 简单 的 变异 形式 插 和 人 /删除 多 态 ( In/Del )、 
关系 碱 基数 量 最 大 的 多 态 拷 贝 数 变异 ( copy number variants, CNV )、 早 期 应 用 的 遗传 标记 微 
卫星 ( microsatellite, MS ) 等 。 
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d MABE 分 子 遗 传 学 
E 。 ” 碱 基 改 变 -点 突变 检测 范畴 
R 一 ”单位 点 插入 删除 多 态 

tk SNP-tagSNPs 


2 bp 到 1000 bp 

* BH, APE 

一 ”多 碱 基 插 入 删除 多 态 

t€ 小 片段 逆转 

2, 3 串联 核 背 重复 


m 





全 染色 体 到 全 基因 组 层面 


染色 体 间 转 座 

环 式 染色 体 ,染色 体 异 构 
， 标记 染色 体 了 
二 BOdk 检测 范畴 


图 9-3 人 类 染色 体 上 的 序列 和 结构 变异 


如 图 9-3 所 描述 的 人 类 染色 体 上 的 各 种 遗传 变异 ,我们 以 1kb 长 度 为 界 , 将 遗传 变异 分 为 
两 类 ,一 类 自身 影响 的 范围 比较 小 ,是 包括 SNP 在 内 的 序列 变异 , 另 一 类 是 从 微 卫 星 和 插入 
删除 多 态 起 到 长 重复 片段 的 结构 变异 ,更 大 的 染色 体 变化 我 们 将 之 为 染色 体 畸 变 , 也 是 遗传 
学 研究 中 的 重要 范畴 ,这 里 我 们 不 展开 介绍 。 

微 卫 星 多 态 目 前 已 发 现 5000 余 个 ,是 早期 遗传 定位 研究 中 非常 重要 的 分 子 标记 ,也 与 癌 
症 等 多 种 疾病 的 稳定 性 有 关 。 已 经 发 现 的 人 类 插入 删除 多 态 已 达到 586 个 ,这 些 多 态 最 长 能 
达到 70kb, 在 多 种 疾病 ,特别 是 精神 病 发 生 过 程 中 有 重要 的 作用 。CNV 目 前 已 经 识别 了 1447 
个 ,涉及 360Mb 的 染色 体 范 围 , 占 人 类 色 体 总 量 的 12% ,是 影响 核 苷 酸 数 最 多 的 变异 形式 。 由 
于 CNV 本 身 的 长 度 超过 100kb ,能 够 直接 引起 基因 拷贝 数 .调控 区 段 的 变化 ,因此 对 于 生理 病 
理 有 着 重要 的 影响 。 变 异 组 学 的 研究 证 据 不 断 的 告诉 我 们 ,人 类 染色 体 中 还 有 着 巨大 的 未 
知 的 秘密 , 既 决 定 了 人 类 种 族 的 一 致 性 ,又 决定 着 人 类 多 样 性 的 产生 ,由 于 他 们 的 存在 ,这 个 
世界 变 得 绚烂 多 彩 ,同样 由 于 他 们 存在 ,人 们 对 人 生 的 感悟 又 有 所 不 同 。 真 正 全 面 了 解 这 
些 遗 传 变异 在 人 类 生理 病理 中 发 挥 的 重要 作用 ,才能 够 实现 从 系统 的 角度 揭示 人 类 生命 的 
本 质 。 
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二 、SNP 与 人 类 复杂 疾病 定位 >> 


复杂 疾病 机 制 研究 是 生物 医学 研究 中 的 重 中 之 重 。 致 病 基因 的 发 现 是 研究 复杂 疾病 机 
制 的 重要 环节 ,也 是 长 期 困扰 科学 研究 者 的 一 个 难题 。 从 20 世 纪 初 ,人 们 就 在 探索 基于 分 子 
标记 的 统计 分 析 方 法 用 于 致 病 基 因 的 识别 ,到 20 世 纪 80 年 代 , 伴 随 分 子 生物 学 技术 的 革新 ， 
这 一 研究 方案 得 到 了 长 足 的 发 展 。 这 种 方法 通过 进行 标记 测定 ,采用 统计 学 方法 研究 分 子 
标记 的 遗传 特性 与 疾病 发 生 之 间 的 相关 性 ,来 实现 疾病 基因 的 染色 体 定位 ,而 几乎 不 需要 任 
何 先 验 的 生物 学 知识 ,是 一 种 强大 的 疾病 基因 识别 手段 。 随 着 SNP 分 型 技术 的 发 展 , SNP 作 
为 一 种 最 重要 的 分 子 标记 ,不 仅 能 够 成 功 应 用 于 孟 德 尔 遗 传 病 的 研究 ,同时 被 广泛 用 来 进行 
复杂 疾病 的 染色 体 定位 。 本 节 将 简要 的 介绍 基于 SNP 的 复杂 疾病 遗传 定位 实验 样本 选取 准 
则 、 连 锁 分 析 、 关 联 分 析 、 统 计 结 果 的 取舍 等 内 容 。 


(一 ) 参数 连锁 分 析 方 法 


对 于 重 德 尔 遗传 病 ( 单 基因 病 ), 我 们 比较 清楚 地 知道 该 疾病 的 遗传 方式 .外 显 率 、 基 因 
频率 等 指标 ,从 而 确定 一 个 准确 的 遗传 模型 进行 连锁 分 析 。 随 着 统计 方法 的 不 断 发 展 , 某 些 
遗传 模型 并 不 清楚 的 疾病 也 通过 改变 策略 而 适用 于 连锁 分 析 , 但 无 论 如 何 , 相 对 准确 的 模型 
建立 是 参数 连锁 分 析 成 功 的 基本 条 件 。 直 接 计 分 法 和 LOD 值 法 是 最 常用 的 参数 连锁 定位 方 
法 ,这 里 我 们 以 LOD 值 法 为 例 进 行 简要 的 介绍 。 

LOD 值 法 进行 连锁 分 析 首先 针对 某 一 疾病 收集 一 定数 量 的 家 系 资料 并 进行 分 离 分 析 ， 
确定 遗传 模型 ; 然后 通过 文献 检索 了 解 其 可 能 的 决定 性 状 的 染色 体 区 域 ,并 对 该 区 域 的 SNP 
进行 查询 和 筛选 ,基于 选 定 的 SNP, 对 该 家 系 成 员 进 行 基 因 分 型 ; 最 后 通过 连锁 分 析 估 计 疾 
病 与 SNP 在 子 代 中 重组 的 发 生 率 , 计 算 LOD 值 ,确定 重组 分 数 及 相应 的 遗传 距离 ,并 进行 假设 
检验 ,判断 易 感 基因 是 否 与 遗传 标记 连锁 。 

LOD 值 是 指 在 一 定 重 组 率 6 条 件 下 ,两 个 位 点 相连 锁 的 似 然 性 和 不 连锁 的 似 然 性 比值 的 
对 数值 。 即 : 


两 位 点 连锁 的 似 然 性 

两 位 点 不 连锁 的 似 然 性 

在 进行 连锁 分 析 时 ,要 计算 0=0.0( 不 重组 ) 到 0=0.5( 随 机 分 配 ) 的 一 系列 LOD 得 分 。 当 
LOD 得 分 为 +3 或 更 大 时 ,肯定 连锁 ; 当 LOD 值 得 分 小 于 或 等 于 -2 时 ,排除 连锁 。LOD 值 得 分 
最 大 时 的 0 值 被 接受 为 最 大 似 然 估计 值 。 由 于 现 有 的 LIPED (http: //linkage.rockefeller.edu/ 
ott/liped.html ), LINKAGE (http: //linkage.rockefeller.edu/soft/linkage/ ), S.A.G.E.( http: //darwin. 
cwru.edu/sage/ ) 等 自由 软件 包 提 供 了 包括 LOD 值 法 在 内 的 多 种 参数 连锁 分 析 工 具 , 这 里 对 具 
体 的 算法 不 再 展开 。 由 于 早期 的 连锁 分 析 方 法 对 模型 的 依赖 性 较 强 ,主要 适用 于 单 基因 病 ， 
计算 速度 慢 等 原因 ,新 的 方法 也 在 不 断 的 开发 ,如 “混合 模型 ” 方法、 多 位 点 连锁 分 析 方 法 、 
基于 仿真 的 吉 布 斯 取样 及 蒙特 卡 罗 方 法 等 。 

参数 连锁 分 析 方 法 已 经 被 应 用 于 几 百 种 孟 德 尔 遗 传 病 的 遗传 定位 研究 中 ,同时 也 在 某 些 
复杂 疾病 研究 ,特别 是 大 家 系 研究 中 获得 成 功 。 当 然 ,实际 的 疾病 家 系 非常 复杂 ,所 以 在 研究 
中 还 应 该 注意 一 些 特殊 的 情况 : 中 如 果 在 特定 的 家 系 中 难以 获得 明确 的 连锁 关系 ,还 可 以 收集 
大 量 的 家 系 资料 进行 分 析 , 但 并 不 是 说 连锁 分 析 结 果 在 某 些 家 系 中 出 现 阳 性 结果 就 可 以 忽略 





LOD=logio (9-1) 
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阴性 结果 的 家 系 ,背后 可 能 还 存在 更 复杂 的 遗传 机 制 。 同 样 ,在 实验 样本 获取 部 分 我 们 曾经 提 
出 五 个 基本 的 原则 ,参数 连锁 分 析 家 系 选择 过 程 中 也 可 以 考虑 以 上 的 因素 ,做 出 合理 的 家 系 篇 
选 。@ 对 于 某 些 外 显 率 并 不 明确 的 疾病 ,还 需要 对 外 显 率 进 行 估计 ,而 采用 疾病 个 体 特异 的 分 
析 策 略 ,将 无 病 个 体 设置 为 表 型 未 知 个 体 也 是 一 种 有 效 的 分 析 方 法 。(® 家 系 中 某 些 个 体 的 疾 
病 表 型 并 不 典型 ,难以 确定 是 否 受累 ,如 某 些 精神 疾病 。 这 时 就 需要 进一步 严格 疾病 定义 ,将 出 
现 某 一 特定 的 表 型 作为 诊断 的 标准 ,或 放宽 标准 ,只 要 出 现 疾病 某 一 典型 表现 即 定义 为 受累 。 


(二 ) 非 参 数 连 锁 分 析 方 法 


非 参 数 连锁 分 析 是 一 种 在 分 析 前 不 需要 确定 疾病 遗传 模式 (如 基因 型 频率 、 外 显 率 等 ) 或 
半 依 赖 模型 的 分 析 方 法 。 最 常用 的 非 参数 连锁 分 析 方 法 是 等 位 共享 方法 。 等 位 共享 方法 不 依 
赖 于 遗传 模型 的 构建 ,而 是 一 个 排除 模型 的 过 程 。 通 过 显示 受累 亲属 间 高 于 随机 情况 的 共享 
遗传 相同 的 染色 体 区 域 (或 位 点 ) 概率 来 证 实 染 色 体 区 域 的 遗传 模式 与 孟 德 尔 遗 传 之 间 的 差 
别 。 由 于 等 位 共享 的 方法 是 一 种 非 参数 方法 , 比 参数 连锁 分 析 方 法 有 更 宽泛 的 应 用 范围 ,而 且 
即使 在 受累 亲属 中 不 完全 显 性 、 表 型 复制 .遗传 异 质 性 和 高 频 等 位 等 影响 因素 存在 时 ,也 有 较 
好 的 表现 。 而 唯一 的 缺陷 是 等 位 共享 方法 提供 的 结果 一 般 说 来 没有 参数 连锁 分 析 方 法 显著 。 

等 位 共享 方法 研究 家 系 中 亲属 在 共享 来 源 于 同一 祖先 的 特定 染色 体 区 域 或 位 点 的 频 
率 , 我 们 把 这 种 区 域 或 位 点 也 叫做 血 源 一 致 性 (identical-by-descent, IBD ), 然后 将 某 个 位 
点 共享 IBD 的 情况 与 随机 进行 比较 。 通 常 ,我 们 可 以 构建 一 个 血缘 一 致 性 受累 家 系 成 员 
( identity-by-descent affected-pedigree-member, IBD-APM ) 统计 量 : 


t(s)2 2,X,G) (9-2) 


式 9-2 中 , Xj(s ) 是 指 家 系 中 第 ;个 和 第 /个 亲属 在 染色 体位 点 处 共享 IBD 的 个 数 ,加 和 指 
的 是 这 个 家 系 中 所 有 亲属 对 在 8 处 共享 IBD 的 个 数 。 如 果 是 多 个 家 系 的 组 合 研究 ,那么 可 以 
加 和 成 7T(s )。 在 随机 分 离 状 态 下 ,7(s ) 趋 于 均值 为 4, 标 准 差 为 c 的 正 态 分 布 ,4 和 co 可 以 通过 
计算 血缘 系数 ( kinship coefficient ) 获得 。 当 统计 量 ( Ty )/c 超 出 了 设 定 的 浆 值 ,我 们 就 可 以 
判定 此 时 的 状态 与 随机 分 离 相 偏离 ,从 而 得 到 阳性 的 结果 。 

在 等 位 共享 分 析 中 ,最 简单 的 一 种 形式 是 同胞 对 ( sib pairs ) 分 析 ,同胞 对 共享 IBD 数 为 0， 
1 或 2( 随 机 情况 下 ,共享 频率 分 别 为 235% .50% 25% ,图 9-4 ), 可 以 采用 简单 的 x 检验 分 析 疾 
病状 态 下 的 等 位 共享 情况 。 这 样 的 方法 同样 可 用 于 受累 叔 侄 对 、 表 兄弟 对 的 研究 。 


il 





ab cd ab cd ab cd 


ale bid ale ald ale ale 
IBD=0 IBD=1 IBD=2 
IBS=0 IBS=1 IBS=2 


图 9-4 同胞 对 血 纱 一 致 性 和 状态 一 致 性 示意 图 
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”IBD 之 外 ,还 有 一 个 与 之 相似 的 概念 状态 一 致 性 ( identical-by-state, IBS )。IBS 用 来 描 
述 亲属 对 之 间 共 享 同 一 等 位 (不 区 分 是 否 同 一 祖先 来 源 ) 的 频率 。 两 者 的 基本 分 析 方 法 是 相 
通 的 ,但 采用 IBS 方 法 可 以 避免 IBD-PAM 分 析 过 程 中 对 IBD 的 估计 过 程 ,因此 应 用 也 非常 广 
泛 。 随 着 遗传 标记 分 型 技术 ,特别 是 SNP 分 型 技术 的 进步 , IBD 和 IBS 方 法 也 逐渐 应 用 于 基因 
组 范围 关联 研究 中 。 


(三 ) 关联 研究 发 现 疾病 风险 SNP 


关联 研究 ( association study ) 是 不 依赖 于 家 系 信息 的 一 种 遗传 定位 策略 ,由 于 资源 丰富 ， 
分 析 方 法 简便 ,是 目前 遗传 定位 研究 中 最 常用 的 分 析 方 法 。 关 联 研 究 通 过 检验 某 个 特定 的 
等 位 在 疾病 组 和 对 照 组 中 出 现 的 频率 差异 来 判断 此 等 位 是 否 是 疾病 易 感 等 位 。 以 SNP 而 言 ， 
发 现 风险 SNP 的 过 程 可 以 采用 四 格 表 x 检验 进行 等 位 频率 分 析 , 也 可 以 采用 2 x 3x 检验 进行 
基因 型 分 析 。 

某 医院 对 200 名 高 血压 患者 和 200 名 对 照 个 体 进行 检测 ,通过 限制 性 内 切 酶 方法 对 采 自 
这 些 个 体 的 外 周 血 淋 巴 细胞 进行 分 析 , 获 得 了 SNP rs39461 的 基因 型 ( 表 9-2 ), 假 定 此 次 研究 
不 存在 采样 上 的 缺陷 , 问 这 个 SNP 是 否 与 高 血压 的 发 生 相 关 ? 


表 9-2 ”患者 及 对 照 个 体 的 基因 型 统计 表 





ya | 基因 型 | Cen 
cc ET TT 
疾病 组 3 36 161 200 
对 照 组 3 57 140 200 
ir 6 93 301 400 


在 一 般 的 SNP 分 型 实验 中 ,我 们 首先 获得 的 数据 就 是 个 体 的 基因 型 数据 ,对 这 些 个 体 按 
疾病 和 对 照 组 进行 统计 就 能 得 到 类 似 于 表 9-2 的 统计 表格 。 根 据 学 过 的 统计 学 知识 ,我 们 知 
道 ,这 个 例题 事实 是 一 个 两 样本 频数 (计数 资料 ) 差异 比较 问题 ,如 果 直 接 从 基因 型 频率 考 
虑 ,这 个 问题 适用 于 自由 度 为 2 的 卡 方 检 验 , 那 么 ,我 们 可 以 进行 这 样 的 处 理 : 

( 1) 建立 检验 假设 ,确定 检验 水 准 

H, : 在 检测 群体 中 ,这 个 SNP 与 高 血压 的 发 生 相 关 

A, : 在 检测 群体 中 ,这 个 SNP 与 高 血压 的 发 生 不 相关 

a=0.05 

(2 ) 计 算 检 验 统计 量 


x b> > 


Ngc 





-1}»=(R-1)(C-1) (9-3) 


1 为 总 例 数 , R、C 分 别 为 行 数 和 列 数 , A SRL, 过 =0.45 为 自由 度 ,将 表格 中 各 数 
值 代 入 公式 得 x =0.45, v=2。 

(3 ) 确 定 p 值 ,作出 推论 

查 表 得 p=0.746 > 0.05, 按 a=0.05 的 水 准 , 接 受 钱 , 即 在 此 检测 群体 中 , SNP rs39461 与 高 
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血压 的 发 生 没 有 相关 性 。 

在 上 面 的 例题 中 ,我 们 采用 了 简单 的 统计 方法 对 SNP 与 疾病 关联 性 进行 了 分 析 , 方 法 
上 的 简捷 性 显而易见 。 但 关联 研究 也 有 比较 明显 的 缺点 , 即 对 对 照 组 样本 选取 具有 严格 
的 限制 ,此 外 ,由 于 关联 研究 可 能 针对 任何 一 个 分 子 标记 进行 ,而 不 存在 先 验 的 假设 ,对 关 
联 研究 发 现 的 风险 SNP 尚 需要 进行 可 靠 的 功能 验证 。 由 此 可 见 ,关联 研究 中 对 标记 信息 的 
分 析 比 研究 方法 本 身 更 重要 ,下 面 我 们 将 从 关联 研究 机 制 上 来 探讨 风险 SNP 发 现 应 注意 的 
问题 。 

关联 研究 中 发 现 SNP 与 疾病 发 生 之 间 的 显著 相关 性 可 能 存在 三 个 原因 : (DSNP 本 身 就 
是 一 个 致 病 的 SNP; @SNP 本 身 不 能 导致 疾病 ,但 与 导致 疾病 的 基因 处 于 连锁 不 平衡 状态 ; 
@ 研 究 群 体 选择 失误 造成 的 统计 显著 性 。 第 三 种 情况 是 关联 研究 过 程 中 需要 避免 的 ,所 以 
关联 研究 过 程 中 还 应 注意 三 点 : 关联 分 析 的 样本 选取 要 严格 限制 在 同 质 性 群体 中 ; @ 关 


的 阳性 位 点 可 进行 传递 不 平衡 检验 ( transmission disequilibrium test, TDT ) 来 确认 发 现 的 致 
病 等 位 在 家 庭 遗 传 中 倾向 于 向 患 病 子 代 遗 传 。 

由 于 复杂 疾病 发 生 过 程 中 ,存在 遗传 位 点 间 的 相互 作用 ,单个 位 点 的 关联 分 析 方 法 有 时 
不 能 获得 足够 的 信息 来 发 现 某 些 区 域 与 疾病 之 间 的 关联 性 。 基 于 单 体型 .罗杰斯 特 回 归 、 主 
成 分 分 析 、 随 机 森林 等 统计 学 和 机 器 学 习 方法 的 遗传 定位 方法 成 为 有 用 的 研究 手段 ,得 到 了 
比较 广泛 的 应 用 。 

总 起 来 看 ,关联 研究 和 连锁 分 析 有 很 多 重要 的 区 别 。 关 联 研 究 检 验 疾 病 与 等 位 频率 在 
群体 中 是 否 存在 相关 性 ,连锁 分 析 检 验 疾 病 与 位 点 是 否 在 家 系 中 共同 传递 。 当 群体 中 致 病 
因素 是 多 样 的 ,而 且 致 病 位 点 相互 独立 ,散在 存在 的 时 候 , 每 个 位 点 与 疾病 关联 都 将 很 弱 , 遗 
传 定位 中 往往 只 能 检测 到 连锁 而 难以 发 现 关 联 ; 相反 , 当 致 病 位 点 等 位 效应 较 弱 ,对 疾病 页 
献 较 小 时 ,但 在 疾病 个 体 中 有 和 较 高 的 等 位 频率 时 ,基于 家 系 的 连锁 分 析 难 以 发 现 潜在 的 传递 
模式 ,而 关联 研究 却 能 识别 出 这 种 致 病 位 点 。 因 此 ,关联 研究 和 连锁 研究 本 身 并 不 存在 熟 强 
熟 弱 ,而 需要 考虑 实际 解决 的 问题 进行 选择 。 

传统 的 连锁 和 关联 分 析 依赖 于 实验 室 SNP 分 型 技术 ,如 限制 性 片段 长 度 多 态 性 方法 、 变 
性 梯度 凝 胶 电 泳 .等 位 基因 特异 寡 核 苷 酸 片段 分 析 等 ,伴随 高 密度 基因 芯片 技术 的 发 展 ,这 
些 技术 对 于 测序 低 通 量 或 单 基因 多 态 位 点 有 着 各 自 的 优势 ,经 济 实用 ,便于 一 般 实 验 室 从 头 
设计 基于 单 基 因 或 某 一 染色 体 候选 区 段 的 风险 SNP 筛 选 。 伴 随 新 型 高 密度 基因 芯片 技术 的 
发 展 和 商业 化 , 单 次 实验 可 对 某 个 样本 数 十 万 甚至 上 百 万 的 SNP 位 点 进行 同时 测定 。 单 次 
实验 SNP 测 定数 量 的 增加 ,使 得 人 们 有 可 能 从 更 大 范围 ,直至 全 基因 组 范围 进行 疾病 关联 的 
SNP 筛 查 ,并 将 关联 分 析 或 连锁 分 析 方 法 扩展 到 整个 基因 组 维度 , 即 目前 广泛 开展 的 基因 组 
范围 关联 分 析 ( genome-wide association study , GWAS )。 


(四 ) 遗传 分 析 中 的 统计 显著 性 

遗传 分 析 方 法 虽然 笼统 的 分 为 两 类 ,但 相应 的 研究 方法 众多 , 既 有 传统 的 统计 分 析 
方法 ,也 有 衍生 而 来 的 机 器 学 习 方 法 ,但 无 论 采 用 何 种 方法 进行 复杂 疾病 的 遗传 分 析 ,最 
终 都 将 面 对 统 计 结 果 的 取舍 问题 , 即 如何 进 行 统 计 显 著 性 的 阅 值 设 定 。 而 且 , 这 个 问题 ， 
还 将 因为 遗传 分 析 中 分 子 标记 的 增多 或 检验 模型 的 增加 ,特别 是 GWAS 的 开展 而 变 得 更 
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在 进行 SNP 与 疾病 之 间 的 连锁 或 关联 分 析 时 ,我 们 要 设置 一 个 可 以 接受 的 假设 检验 
显著 性 水 平 a( 一 般 为 5% )。 这 样 ,每 一 次 检验 ,都 有 5% 的 可 能 引入 一 个 假 阳 性 的 结果 ( T 
类 错误 )。 当 进行 n 次 独立 的 连锁 或 关联 检验 时 ,引入 的 I 类 错误 水 平 将 满足 a=1-( 1-a)", 
当 n 变 大 时 ,引入 的 假 阳 性 结果 也 将 增多 ,从 而 使 得 在 进行 数 以 千 计 的 SNP 关 联 或 连锁 分 析 
时 ,需要 对 a 进行 Bonferroni 校 正 x'=a/n。 在 这 种 情况 下 ,如 果 对 1000 个 SNP 进 行 检验 ,是 要 
达到 显著 性 水 平 a=0.05 ,需要 达到 真实 的 显著 性 水 平 为 c=5 x 107 ,而 100 万 个 SNP 进 行 检验 
时 ,所 需要 达到 的 真实 显著 性 水 平 为 a'=5 x 10 ,这 对 于 高 维度 SNP 和 遗传 定位 是 个 灾难 性 的 
结果 ,直接 导致 单 次 关联 或 连锁 分 析 所 能 获得 的 显著 性 结果 极 少 ,一 方面 许多 真正 相关 的 
SNP 没 有 被 发 现 , 造 成 了 很 大 的 假 阴性 , 另 一 方面 在 发 现 的 极 少 的 显著 性 结果 中 依然 存在 
着 较 大 的 假 阳 性 。 

因此 ,对 于 遗传 定位 的 结果 取舍 ,特别 是 多 重 检验 问题 一 向 都 是 人 们 关注 的 重点 ,采用 
多 次 随机 进行 SNP 与 疾病 相关 性 检验 进行 显著 性 水 平 选 取 是 目前 为 回避 多 重 检 验 校 正 而 广 
泛 采 用 的 一 种 方法 。 男 外 ,考虑 到 基因 组 中 广泛 存在 的 连锁 不 平衡 问题 ,对 待 检 的 SNP 进 行 
LD 修正 是 降低 多 重 检验 校正 影响 的 一 种 有 效 方法 。 此 外 ,在 芯片 分 析 中 采用 的 FDR 方 法 也 

经 常用 于 遗传 定位 结果 的 修正 。 








三 、 变 异 组 学 研究 资源 >> 


(一 ) 国际 人 类 单 体型 图 计划 及 其 应 用 


1. 国际 人 类 单 体型 图 计划 概况 国际 人 类 单 体型 图 计划 (international HapMap 
project, HapMap ) 是 继 国际 人 类 基因 组 计划 之 后 ,人 类 基因 组 研究 领域 的 又 一 个 重大 国际 
合作 项 目 。HapMap 计 划 起 始 于 2002 年 ,由 美加 、 中 日 、 英 、 尼 日 利 亚 等 国 研究 机 构 发 起 、 
参与 及 完成 。 中 国 科 学 家 承担 3 号 .21 号 和 8 号 染色 体 短 臂 单 体型 图 的 构建 ,工作 量 约 占 
总 计划 的 10%。 项 目 共 取 样 270 个 正常 个 体 ,其 中 有 欧 裔 美国 人 和 尼日利亚 雅 鲁 巴 人 ( 非 
洲 ) 各 30 个 核心 家 系 ( 90 个 个 体 ), 及 中 国 北京 汉族 人 及 日 本 东京 人 各 45 个 个 体 。 一 期 已 
于 2005 年 完成 ,成 功 分 型 100 多 万 个 常见 SNP 位 点 的 识别 ,达到 平均 每 3kb 一 个 SNP 的 测定 。 
由 于 染色 体 连 锁 不 平衡 的 存在 ,一 期 数据 可 以 捕获 基因 组 上 80% 的 遗传 差异 信息 。 二 期 计 
划 在 一 期 基础 上 完成 300 多 万 个 SNP 位 点 的 分 型 ,构建 起 一 张 精 度 更 高 .信息 更 完整 的 多 人 
种 遗传 多 态 图 谱 。 三 期 计划 已 经 开展 ,在 进一步 测定 原 有 群体 基因 型 基础 上 ,加 入 男 外 7 
个 不 同 历史 遗传 背景 的 人 群 ,部 分 分 型 数据 已 经 发 布 。HapMap 计 划 期 望 在 全 部 完成 时 能 
够 提供 一 个 包括 全 部 人 类 遗传 差异 的 多 态 组 图 谱 , 同 时 带动 其 他 人 类 遗传 变异 的 发 现 和 
研究 。 

2. HapMap 数 据 特 点 与 扩展 应 用 “HapMap 计 划 建 立 了 人 类 全 基因 组 遗传 多 态 图 谱 , 依 
据 这 张 图 谱 我 们 可 以 进一步 研究 基因 组 的 结构 特点 以 及 SNP 位 点 在 人 群 间 的 分 布 情况 ,为 
群体 遗传 学 、 进 化 遗传 学 分 析 提 供 数 据 , 也 为 复杂 疾病 的 遗传 定位 提供 高 密度 的 SNP 数 据 参 
考 。HapMap 的 构建 分 为 三 个 步 又 : 四 在 多 个 个 体 的 DNA 样 品 中 鉴定 单 核 昔 酸 多 态 (SNP ); 
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@) 将 群体 中 频率 大 于 1% 的 那些 共同 遗传 的 相 邻 SNP 组 合成 单 体 型 ; @) 在 单 体型 中 找 出 用 于 
识别 这 些 单 体型 的 标签 SNP。 这 样 , HapMap 提 供 的 每 个 研究 个 体 的 数据 包括 SNP 等 位 .基因 
型 基因 型 频率 、200kb 范 围 内 SNP 之 间 的 LD 量度 (rr、D' )。 

伴随 HapMap 计 划 的 进一步 拓展 ,结合 群体 遗传 学 的 研究 手段 ,我 们 可 以 更 加 深入 地 去 
观察 和 研究 基因 组 。 基 于 大 和 群体、 多 种 群 的 人 类 单 核 背 酸 多 态 数据 的 重组 率 推算 提供 了 我 
们 一 张 基因 组 进化 痕迹 图 ; 连锁 不 平衡 的 计算 给 了 我 们 一 张 基因 组 块 状 连锁 结 构图 ; 种 群 
差异 研究 让 我 们 看 到 一 张 种 群 间 基 因 组 结构 差异 图 ; SNP 的 杂 合 情况 告诉 我 们 人 类 基因 组 
上 受到 选择 的 区 域 或 区 域内 的 基因 ; 利用 SNP 位 点 向 两 边 延伸 的 长 度 差异 情况 ,我们 可 以 观 
察 到 一 些 基 因 组 上 近期 正在 进行 的 选择 事件 ,甚至 是 当前 正在 悄悄 进行 中 的 进化 ,因为 新 产 
生 的 突变 位 点 传代 较 少 , 它 和 周围 位 点 的 连锁 情况 受 重组 事件 的 影响 较 小 , 另 一 方面 优势 突 
变 也 会 因 选 择 压 力 的 存在 使 周围 的 重组 受到 影响 …… 当 然 这 些 不 同 的 指标 中 也 隐藏 了 人 类 
成 长 过 程 中 的 一 些 信息 ,例如 迁徙 .战争 灾难、 繁盛 等 对 基因 组 遗传 多 态 性 产生 影响 的 历史 
事件 。 

此 外 ,高 密度 的 SNP 位 点 ,为 进一步 加 强 和 完善 基因 组 范围 的 表 型 和 遗传 相关 性 分 
析 ( 关 联 研究 或 数量 性 状 定位 ) 提供 了 可 能 ,以 往 遗 传 学 上 定位 基因 使 用 较 多 的 工具 是 
微 卫 星 ,这 些 新 产生 的 SNP 位 点 弥补 了 微 卫星 在 基因 组 上 分 布 不 够 均匀 、 密 度 不 够 高 的 
缺点 ,是 一 种 更 为 有 效 的 分 子 标 记 。 目 前 ,已 经 有 很 多 致 病 基 因 借 助 SNP 数 据 得 到 定位 。 
另外 ,根据 SNP 在 基因 的 不 同 功能 元 件 中 的 分 布 情况 和 基因 在 细胞 中 的 表达 情况 ,我 们 
可 以 研究 基因 上 的 不 同 元 件 序列 是 如 何 控制 蛋白 表达 进而 影响 个 体 表 型 的 。 伴 随 着 
HapMap 三 期 数据 的 产 出 各 种 实验 技术 的 进一步 发 展 , 以 及 更 加 大 量 的 基因 组 序列 数据 
加 入 到 人 类 的 知识 库 中 ,与 此 相关 的 研究 方法 和 研究 手段 会 不 断 出现 ,我 们 将 能 够 更 加 
完整 .更 加 深入 、 正 确 地 认识 我 们 自己 ,揭示 生老病死 的 奥秘 ,并 为 人 类 生存 质量 的 提高 
提供 有 益 的 参考 信息 。 

3. 利用 HapMart 进 行 科学 研究 ”为 了 便于 科研 工作 者 快速 提取 感 兴趣 的 SNP 数 据 ,在 
HapMap 数 据 基 础 上 , BioMart( 一 个 重要 的 生物 信息 学 数据 分 析 平 台 ) 开 发 了 方便 .友好 的 
SNP 获 取 网 络 平台 HapMart。 这 个 平台 支持 研究 者 输入 SNP 基因 染色体 区 段 等 信息 进行 限 
定 条 件 下 的 SNP 查 询 及 相关 信息 的 输出 。 由 于 HapMap 数 据 本 身 跨 群 体 的 特性 ,用 户 可 以 通 
过 这 个 平台 进行 不 同 群体 间 的 数据 提取 ,如 果 是 候选 基因 或 多 SNP 实 验 设计 ,还 可 以 联系 其 
他 的 连锁 不 平衡 分 析 工 具 ( 如 下 文 将 提 及 的 Haploview ) 及 感 兴趣 的 基因 型 频率 信息 进行 深 
层次 的 SNP 选 择 。 利 用 HapMart 进 行 SNP 数 据 的 提取 主要 分 为 三 个 步骤 : 输入 设置 输出 设置 
和 结果 导出 。 

(1 )HapMart 的 输入 设置 : 图 9-5 显 示 了 HapMart 查 询 过 程 中 的 输入 和 查询 限制 界面 。 在 
这 里 ,可 以 进行 研究 群体 的 选择 、SNP 质 量 限 定 , 以 及 查询 设置 。 目 前 , HapMart 主 要 支持 四 
个 群体 的 查询 ,后 续 的 群体 正在 添加 中 。 对 于 目标 SNP 可 以 进行 最 小 等 位 频率 、 分 型 机 构 、 
分 型 平台 、SNP 类 型 的 限定 。 可 以 根据 SNP 的 标识 符 、 定 位 区 域 ( 功 能 区 域 或 染色 体位 置 ), 及 
其 与 基因 的 位 置 关 系 进行 单个 或 高 通 量 的 SNP 查 询 。 

( 2) HapMart 的 输出 设置 : 图 9-6 显 示 了 HapMart 的 SNP 输 出 属性 设置 界面 。 可 以 根据 人 研 
究 者 的 研究 兴趣 进行 设 定 , 并 输出 相应 的 结果 。SNP 相 关 属 性 主要 有 标识 .遗传 定位 、 等 位 
和 基因 型 状态 和 频率 特征 。 
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图 9-5 HapMart 的 输入 设置 界面 
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Home | About the Project | Data | Publications | Tutorial 
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图 9-6 HapMart 的 输出 设置 界面 


3 ) 查询 结果 的 导出 : 根据 研究 者 的 研究 兴趣 和 输入 输出 设置 ,以 特定 的 格式 显示 和 导 
i 图 9-7 显 示 限 定 最 小 等 位 频率 0.01 时 ,定位 在 基因 IL10 上 的 SNP 位 置 、 等 位 
因 型 频率 信息 。 
HapMart 查 询 结 果 以 HapMap 数 据 为 基础 ,提供 的 是 不 同 种 群 特定 群体 的 SNP 信 息 ,主要 
用 以 实验 设计 者 针对 特定 人 群 的 实验 参考 。 由 于 计划 测定 规模 的 限制 ,数据 本 身 存在 一 定 
的 偏差 ,因此 查询 结果 应 当 进 行 一 定 的 预 实验 和 初步 分 析 , 才 能 用 于 大 规模 实验 。 
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图 9-7 HapMart 的 结果 显示 与 导出 界面 
(二 ) SNP 存 储 与 维护 数据 库 dbSNP 


SNP 作 为 新 一 代 遗 传 标记 具有 数量 多 、 分 布 广 、 密 度 大 等 特点 ,已 广泛 应 用 于 遗传 学 研 
究 中 。 为 了 满足 对 基因 组 范围 总 体 变异 的 需求 ,解决 在 关联 研究 、 基 因 定 位 功能 和 药理 遗 
传 学 、 群 体 遗 传 学 、 进 化 生物 学 以 及 定位 克隆 、 物 理 作 图 等 领域 中 大 规模 抽样 设计 的 需求 ， 
NCBI 与 NHGRI 协 作 创 建 了 dbSNP。 通 过 dbSNP, 由 公共 和 私人 组 织 提交 的 遗传 变异 数据 与 
其 他 信息 来 源 , 如 GeneBank、PubMed 、LocusLink 及 人 类 基因 组 数据 实现 交叉 引用 ,为 广大 研 
究 者 提供 了 丰富 的 遗传 变异 ,特别 是 SNP 信 息 ,呈现 了 一 幅 全 面 的 人 类 SNP 的 基因 组 分 布 图 。 
充分 利用 数据 库 中 资源 将 大 幅度 降低 研究 成 本 、 提 高 研究 效率 。 此 处 ,就 dbSNP 数 据 库 的 功 
能 .范围 .数据 提交 、 检 索 进 行 简要 的 介绍 。 

1. dbSNP 的 主要 功能 

(1 ) 遗 传 变异 序列 环境 分 析 : dbSNP 通 过 BLAST 和 E-PCR 对 变异 周围 序列 进行 分 析 , 将 
其 链接 到 其 他 NCBI 序 列 资 源 , 对 变异 进行 交叉 注释 。 用 户 可 直接 在 dbSNP 中 检索 ,或 在 NCBI 
查询 空间 的 任何 部 分 开始 ,构建 一 个 满足 要 求 的 dbSNP 记 录 集 ,该 记录 可 通过 超 文本 或 URL 
与 外 部 信息 资源 整合 。 

(2 ) 基 于 NCBI 的 遗传 变异 交叉 注释 : 在 后 基因 组 时 代 , 对 特征 序列 的 注释 (如 新 基因 或 
调控 区 域 ) 为 当前 在 随机 序列 中 发 现 的 变异 提供 一 个 功能 背景 。 随 着 这 些 新 基因 条 目的 出 
现 , dbSNP 通 过 链接 能 够 将 变异 自动 注释 到 恰当 的 参考 序列 集 或 UniGene 集 中 。 

(3 ) 外 部 资源 整合 : dbSNP 具 有 “LinkOut URLs" 功能 ,将 变异 信息 链接 到 NCBI 之 外 的 信 
息 资源 。 这 种 整合 非常 重要 ,尤其 是 当 我 们 考虑 将 变异 注释 到 整个 基因 组 上 或 考虑 其 对 生 
物体 的 意义 时 。 

(4) 遗 传 变异 的 功能 分 析 : NCBI 没 有 直接 地 在 序列 上 注释 变异 的 详细 生物 化 学 或 者 表 
型 信息 ,而 在 dbSNP 中 保留 了 与 外 部 数据 库 的 链接 。 因 此 , dbSNP 记 录 能 够 链接 到 那些 对 个 
别 变异 描述 更 加 完整 的 位 点 特异 突变 数据 库 。 
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2. dbSNP 数 据 特征 ”dbSNP 数 据 库 中 不 仅 收录 了 人 类 SNP 数 据 , 还 收录 了 所 有 已 知 的 跨 
物种 的 SNP、 插 入 /缺失 、 拷 贝 数 和 微 卫星 多 态 , 且 包含 种 族 特 异 频率 和 基因 型 数据 、 实 验 条 
件 、 分 子 背 景 , 以 及 功能 特性 和 临床 变异 的 定位 信息 。 和 截止 到 2009 年 10 月 7 日 , dbSNP 已 经 更 
新 至 130 版 本 ,涉及 55 个 物种 的 1.5 亿 个 SNP ,编码 区 SNP 已 超过 2 千 万 ,具有 频率 信息 的 SNP 超 
过 300 万 个 。 

3. 向 dbSNP 提 交 数 据 目前 ,科研 领域 出 版 物 中 涉及 的 遗传 变异 信息 一 般 要 求 提交 到 
dbSNP 数 据 库 中 。 所 需 数据 提交 信息 包括 特定 位 点 观察 到 的 等 位 基因 突变 周围 的 侧 辟 序 
列 .使 用 的 实验 方法 , 伴 有 STS 或 GeneBank 记 录 的 指针 。 每 个 特异 实验 室 具 有 唯一 标识 ,这 将 
允许 提交 的 数据 与 特定 试验 室 相关 联 。NCBI 将 会 给 每 个 提交 的 SNP 分 配 一 个 编号 ss#, 一 种 
生物 基因 组 中 涉及 的 唯一 SNP 也 将 分 配 一 个 标识 符 ( 人 类 的 SNP 标 识 符 为 rs# )。 所 有 这 些 编 
号 或 标识 符 被 用 于 将 SNP 映 射 到 外 部 资源 或 数据 库 中 ,包括 NCBI 中 其 他 数据 库 。 

4. 利用 dbSNP 进 行 信息 检索 ”在 dbSNP 中 可 直接 查询 ,也 可 通过 其 他 NCBI 查 询 框 来 检 
索 。 直 接 查 询 可 以 通过 提交 实验 室 新 的 批量 提交 ,鉴定 方法 、 群 体 类 型 研究 .书刊 题目 、 群 
体 变异 水 平 或 STS 映 射 信息 实现 。 作 为 NCBI 中 一 个 整合 部 分 , dbSNP 中 内 容 与 其 他 信息 资源 
记录 是 横向 链接 的 。 从 其 中 任何 来 源 中 查询 的 结果 集合 会 给 用 户 提供 一 个 返回 dbSNP 相 关 
记录 的 指针 。 图 9-8 显 示 的 是 以 人 类 IL10 基 因 相 关 SNP 为 例 的 dbSNP 查 询 过 程 ,及 其 显示 结 
果 , 进 一 步 点 击 蓝 色 链接 将 显示 每 个 SNP 的 详细 信息 。 
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图 9-8 dbSNP 的 查询 界面 





5. 提供 dbSNP 交 叉 引 用 的 模块 BLAST: dbSNP 查 询 ,可 通过 标准 的 BLAST 算法 来 实现 ， 
即将 用 户 提交 的 序列 与 dbSNP 中 所 有 侧翼 序列 记录 进行 匹配 。 除 了 在 NCBI 首 页 中 提供 了 
一 般 的 BLAST 功能 , dbSNP 中 也 提供 了 此 功能 。LocusLink: dbSNP 也 可 通过 将 其 与 其 他 NCBI 
资源 整合 来 检索 。 通 过 LocusLink, 由 基因 名 字 或 系统 命名 来 进行 检索 。 从 LocusLink 数 据 库 
中 检索 的 结果 将 呈现 为 一 个 紫色 的 V 形 按钮 ,该 按钮 可 以 指向 一 个 LocusLink 数 据 库 中 任何 
一 个 基因 上 的 参考 SNP 记 录 列 表 。Entrez: “图 形 可 视 化 ”旁边 的 工具 条 有 一 个 链接 将 dbSNP 
中 的 SNP 记 录 链 接 到 Entrez Gene 数 据 库 ,这 样 的 链接 可 以 直接 看 到 Entrez Gene 中 的 基因 上 的 
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SNP 分 布 情况 ,并 能 够 根据 需求 ,如 是 否 具 有 频率 、 是 否 编码 等 信息 进行 可 视 化 的 SNP 查 询 。 
Genome sequence: 重合 视图 除了 可 以 设置 为 显示 STS ‘marker’ ”和 序列 组 成 ,还 可 以 显示 “ 变 
异体 ”。 

图 9-9 显 示 了 dbSNP 与 Entrez Gene 之 则 的 交叉 引用 结果 ,通过 Entrez Genel] dbSNPRE $8 BE 
接 , 查 询 到 江 10 基 因 上 的 SNP 分 布 情况 。dbSNP 用 不 同 的 颜色 和 柱 体 长 度 表示 基因 上 的 SNP 
类 型 及 其 频率 状况 ,对 于 深入 的 选取 对 研究 有 影响 的 SNP 提 供 了 直观 的 借鉴 信息 。 从 查询 
结果 上 看 ,从 dbSNP 展 开 的 查询 获得 的 SNP 数 量 要 比 HapMart 的 多 ,这 主要 是 dbSNP 本 身 不 限 
制 收录 的 SNP 最 小 等 位 频率 造成 的 ,所 以 研究 过 程 中 还 应 当 进 一 步 考 虑 频率 和 相应 的 群体 
=a 
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图 9-9 dbSNP5Entrez Gene 3X 4] J| 


(=) 关联 研究 基因 型 数据 的 存储 与 整理 dbGap 

1. dbGap 的 主要 功能 国家 生物 技术 信息 中 心 (NCBI ) 建立 了 基因 型 和 表 型 数据 库 
dbGaP。dbGaP 的 开发 是 为 了 存储 和 发 布 基因 型 和 表 型 相关 的 研究 数据 及 研究 结果 。 这 些 
研究 包括 全 基因 组 关联 研究 .医疗 测序 分 子 诊 断 化 验 ,以 及 基因 型 与 非 临 床 性 状 之 间 的 关 
联 性 。 用 于 基因 分 型 的 高 通 量 \ 低 成 本 、 高 效率 的 分 析 方 法 研究 ,发 现 海量 基因 型 和 表 型 数 
据 相 关 性 的 未 知 信 息 提供 了 强 有 力 的 工具 。 

dbGaP 是 一 个 存储 了 个 体 水 平 的 表 型 .基因 型 和 序列 数据 ,以 及 它们 之 间 的 关联 性 的 公 
共 知 识 库 。dbGap 收 录 的 数据 绝 大 部 分 是 大 规模 的 基因 组 范围 关联 研究 数据 ,对 研究 过 程 中 
得 到 的 信息 子 集 ,包括 文件 \ 个 体 表 型 变量 特征 数据 表 、 基 因 型 数据 ,计算 表 型 与 基因 型 之 
间 的 相关 性 , 设 定 唯一 的 标识 符 。 其 中 的 部 分 数据 采用 直接 开放 的 管理 办 法 , 非 注 册 用 户 即 
可 直接 下 载 相关 的 数据 进行 非 商 业 化 的 科学 研究 。 为 了 确保 被 研究 者 的 个 人 权益 及 数据 检 
测 部 门 的 优先 使 用 权利 , dbGap 中 的 大 部 分 数据 的 访问 和 使 用 需要 进行 人 工 申请 。 

dbGaP 包 含 了 对 各 种 各 样 设计 的 研究 。 它 包括 四 个 基本 类 型 的 数据 : 研究 文件 ,包括 
研究 说 明 ,协议 文件 和 数据 收集 文书 ,如 问卷 调查 表 ; @ 每 个 被 评估 变量 的 表 型 数据 ,包括 在 
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个 体 水 平 上 的 和 以 摘要 形式 进行 评估 的 ; 3 遗传 数据 ,包括 研究 对 象 的 个 体 基 因 型 .谱系 信 
息 、 精 细 定 位 结果 和 重新 测序 的 描述 ; 由 统计 结果 ,包括 关联 和 连锁 分 析 结 果 。 
2. dbGap 中 保存 的 数据 访问 ”为 了 保护 研究 对 象 的 权益 , dbGaP 只 接受 已 被 查 明 的 数据 
并 要 求 调 查 员 需 通 过 一 个 授权 程序 才 可 以 获取 个 体 水 平 的 表 型 和 基因 型 数据 集 。 总 结 性 的 
表 型 和 基因 型 数据 ,以 及 研究 文件 ,可 以 无 限制 的 获取 。 
dbGaP 提 供 两 个 访问 级 别 - 开 放 的 和 受 控 的 -这 么 做 的 目的 是 为 了 让 非 敏感 数据 广泛 开 
放 , 同 时 提供 对 涉及 了 个 人 健康 信息 的 敏感 数据 集 进行 负责 任 地 监督 和 调查 。 研 究 的 总 结 
和 测量 变量 的 内 容 , 以 及 原始 研究 文件 的 文本 ,一般 会 提供 给 公众 ,而 要 获得 这 些 个 体 水 平 
的 数据 ,包括 表 型 数据 表 和 基因 型 数据 就 需要 不 同 的 授权 级 别 。 
(1 ) 开 放 数 据 : 开放 式 访问 数据 可 以 在 线 浏览 或 未 经 批准 或 授权 就 可 以 从 dbCaP 中 下 
载 。 这 些 数据 将 包括 ,但 并 不 仅 限于 表 9-3 所 列 的 内 容 。 
表 9-3 dbGaP 中 的 数据 类 型 
dbGaP 数据 类 型 “ ”信息 所 在 位 置 
研究 当 浏 览 研究 时 在 名 为 "Study' 的 列 中 出 现 
TEARS’ Studies’ 下 一 个 搜索 的 结果 
通 往 一 个 变量 或 一 个 文件 的 路 径 的 一 部 分 
研究 文件 从 ′ Browse Studies’ 链接 
Ej’ Associated Documents 下 的 研究 报告 链接 
标签 ”Study Documents’ 下 的 一 个 搜索 结果 
表 型 变量 与 ' ‘Browse Studies’ 链接 
Ej' Associated Variables’ 下 的 研究 报告 链接 
标签 ' Variables' 下 的 一 个 搜索 结果 
基因 型 _ 表 型 分 析 5j' Associated Analyses’ 下 的 变量 报告 链接 
5j' Associated Analyses’ 下 的 研究 报告 链接 


这 是 一 个 可 用 于 开放 式 进入 用 户 的 一 般 性 描述 。 提 供给 开放 式 进 入 用 户 的 数据 可 能 在 
研究 之 间 变 化 ,也 可 能 没有 通知 就 与 这 里 描述 的 有 所 不 同 。 

(2 ) 受 限 数 据 : 受 控 访问 数据 只 能 在 用 户 已 通过 适当 的 数据 访问 委员 会 ( DAC ) 的 授权 
后 才能 获得 。 提 供给 授权 的 调查 人 员 的 数据 可 能 要 包括 以 下 内 容 : 中 用 于 个 人 研究 课题 的 
确定 的 表 型 和 基因 型 ; @ 谱 系 ; @B) 基 因 型 与 表 型 之 间 在 计算 前 期 的 单 变量 的 相关 性 (如 果 没 
有 在 公开 网 站 上 提供 )。 

由 于 数据 访问 策略 是 基于 每 个 研究 的 基础 上 确定 的 ,提供 给 用 户 的 带 有 受 控 访 问 授权 
的 数据 在 不 同 的 研究 之 间 可 能 会 发 生变 化 , 且 也 有 可 能 在 没有 通知 的 情况 下 就 与 这 里 所 描 
述 的 有 所 不 同 。 关 于 用 于 一 个 特定 的 研究 的 数据 的 访问 策略 ,可 以 在 研究 报告 页 连同 适当 
的 授权 机 构 的 链接 上 找到 更 多 的 细节 。 
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一 \ 面 向 通路 的 基因 组 范围 关联 研究 >> 


随 着 人 类 基因 组 计划 和 HapMap 计 划 的 开展 和 完成 ,已 识别 的 人 类 SNP 已 达到 千 万 , 常 
见 SNP 数 量 也 已 经 达到 300 万 以 上 ,同时 HapMap 计 划 推 动 的 商业 分 型 芯片 发 展 ,已 经 促使 
遗传 定位 研究 由 最 初 的 几 个 至 数 千 个 分 子 标记 的 研究 发 展 到 当前 50 万 至 100 万 SNP 的 研究 
维度 , 极 大 地 推动 了 复杂 疾病 风险 定位 的 研究 ,遗传 分 析 已 经 进入 了 基因 组 范围 关联 研究 
( genome-wide association study, GWAS ) 阶段 。 目 前 ,基因 组 范围 关联 研究 已 经 应 用 于 40 多 
种 复杂 疾病 , 绝 大 多 数 研 究 涉 及 SNP 数 目 已 经 超过 50 万 ,并 通过 GWAS 成 功 获得 了 150 多 个 
致 病 基 因 。 这 些 疾病 基因 的 获得 对 于 复杂 疾病 ,特别 是 癌症 ,糖尿病 、 心 脏 病 等 常见 病 的 研 
究 提 供 了 大 量 的 有 用 信息 ,也 为 进一步 揭示 这 些 疾 病 的 发 生机 制作 出 了 贡献 。 真 正 意义 上 
的 GWAS 开 始 于 2005 年 前 后 ,应 该 说 ,现在 还 只 是 它 的 起 步 阶 段 , 大 规模 的 GWAs 人 研究 还 在 酝 
酿 ,相应 的 研究 策略 也 在 不 断 的 开发 。 

但 正如 上 文中 我 们 提 到 的 ,高 维度 的 SNP 数 据 也 给 统计 学 方法 带 来 了 很 大 的 压力 ,多 
重 检验 问题 困扰 着 大 规模 的 遗传 定位 研究 。 目 前 ,基因 组 范围 关联 研究 主要 通过 两 个 策 
略 来 实现 风险 SNP 和 风险 基因 的 发 现 。 一 方面 ,采用 合并 不 同 实验 室 样本 数据 的 方法 , 通 
过 提高 研究 某 个 疾病 的 样本 量 或 SNP 密 度 来 加 大 风险 SNP 的 识别 水 平 , 即 我 们 常 说 的 meta 
分 析 方 法 ,并 且 成 功 应 用 于 乳腺 癌 、 结 肠 癌 和 2 型 糖尿 病 等 研究 中 。 另 一 方面 ,采用 候选 区 
域 精细 定位 的 方法 ,在 较 低 样 本 量 情况 下 采用 基因 组 范围 关联 分 析 获 得 候选 风险 区 域 , 缩 
小 范围 后 对 候选 区 域 加 大 样本 量 ,进行 精细 的 SNP 分 型 ,采用 多 轮 重复 策略 ,最终 获 得 高 显 
著 .高 精确 度 的 风险 位 点 (图 9-10 )。 这 些 策略 的 实施 为 发 现 真实 的 风险 SNP 提 供 了 可 靠 的 
保障 ,但 依然 存在 花费 大 效率 低 的 缺点 。 

在 这 样 的 情况 下 ,人们 逐渐 将 目光 从 统计 方法 研究 和 提高 统计 显著 性 角度 转移 到 关联 
分 析 结 果 的 信息 挖掘 上 , 称 之 为 第 二 代 关 联 分 析 策 略 。 第 二 代 关 联 分 析 策 略 将 关联 分 析 作 
为 疾病 风险 权重 ,期 望 借助 于 已 知 的 通路 网络 EME 功能 等 知识 进行 位 点 和 基因 层面 之 外 
的 更 高 层次 的 信息 发 现 。 
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图 9-10 精确 定位 策略 提高 关联 分 析 可 靠 性 


GWAS 研 究 从 全 基因 组 角度 进行 风险 SNP 的 筛选 ,实际 上 也 是 一 定单 位 点 关联 分 析 方法 ,在 
一 定 程度 上 不 足以 反映 真实 的 复杂 疾病 信息 ,获得 的 结果 一 方面 存在 很 高 的 假 阳 性 率 , 为 一 方 
面 不 同 实 验 之 间 还 存在 低 重 复 率 的 问题 。 这 一 问题 在 meta 分 析 中 有 一 定 的 改观 ,当然 也 有 很 多 
学 者 试图 在 基因 组 范围 SNP 基 因 型 数据 中 运用 多 位 点 的 分 析 方 法 ,但 往往 由 于 极 高 的 计算 复杂 
度 而 很 难 获得 预期 的 效果 。 图 9-11 显 示 了 一 种 基于 基因 组 关联 分 析 方法 和 生物 学 网 络 上 下 文 
的 风险 通路 优化 算法 。QD 计 算 单 位 点 SNP 与 疾病 风险 值 ,并 将 基因 上 最 显著 的 SNP 关 联 p 值 的 负 
对 数 作为 该 基因 对 疾病 的 风险 值 ; @ 将 目前 已 知 的 人 类 生理 通路 中 不 同 路 径 和 位 置 基 因 进行 
网 络 加 权 ; @) 以 加 权 的 生物 学 通路 作为 背景 信息 ,将 带 关 联 权重 的 基因 映射 到 通路 中 ,并 计算 
全 通路 与 疾病 之 间 的 风险 值 ,进行 风险 通路 优化 和 排 秩 。 这 种 方法 实际 上 考虑 到 了 复杂 疾病 
本 身 存 在 的 复杂 疾病 的 多 基因 性 、 致 病 基因 微 效 性 和 致 病 基因 之 间 的 相互 作用 ,利用 一 种 将 代 
的 方法 进行 复杂 疾病 的 多 位 点 分 析 , 在 一 定 程度 上 避免 了 多 重 检验 校正 和 影响 ,提高 了 实验 的 
重复 率 ,同时 也 有 利于 从 通路 的 角度 深入 的 了 解 复杂 疾病 病因 学 ,高 效 发 现 疾病 关联 基因 。 当 
然 , 这 种 方法 也 受到 现 有 已 知 通 路 信息 不 全 ,依赖 于 单位 点 关联 分 析 方 法 存在 的 随机 性 影响 。 
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图 9-11 基于 关联 分 析 的 复杂 疾病 风险 通路 优化 方法 
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作为 一 种 更 为 优化 的 方法 ,可 以 从 已 知 的 蛋白 质 互 作 网 络 信息 出 发 ,来 构建 一 个 更 为 完 
善 的 基因 与 基因 之 间 的 先 验 互 作 集 (潜在 的 通路 背景 基因 集 ), 将 单 基因 上 多 个 SNP 与 疾病 之 
间 的 关联 性 赋予 基因 作为 基因 与 疾病 之 间 的 风险 性 ,并 将 基因 风险 映射 到 互 作 网 络 中 ,利用 
相应 的 网 络 分 析 方 法 ,对 原 有 的 开放 性 网 络 加 入 组 织 特 异性 、 细 胞 定位 、 生 物 功能 等 限制 性 
条 件 ,进行 更 为 可 靠 的 疾病 相关 的 子 网 筛选 。 同 时 ,也 可 以 充分 利用 现 有 的 单 通 量 生 物 实验 
获得 的 成 果 , 加 入 先 验 疾 病 研究 基因 集 ,诱导 疾病 相关 子 网 的 提取 。 这 可 以 有 效 的 利用 人 们 
对 疾病 \ 人 类 基因 互 作 关系 及 其 他 成 熟 的 研究 结果 ,进行 比较 全 面 的 复杂 疾病 潜在 疾病 通路 
的 发 现 。 如 果 能 够 进一步 引入 代谢 子 .遗传 调控 等 因素 ,有 可 能 会 从 更 为 科学 的 角度 提升 基 
于 SNP 研 究 复杂 疾病 的 可 靠 性 。 

这 样 的 策略 不 仅 坚 持 了 疾病 基因 层面 的 发 现 ,同时 获得 的 结果 还 能 够 从 细胞 过 程 和 机 
制 的 角度 来 解释 疾病 的 发 生 , 相 比 原 有 传统 关联 分 析 方 法 ,有 着 不 言 而 喻 的 优势 。 但 由 于 作 
为 研究 基础 的 高 通 量 先 验 知识 本 身 还 存在 不 完整 和 假 阳 性 ,因此 第 二 代 关 联 分 析 策 略 还 处 
于 起 步 和 摸索 阶段 ,更 为 系统 的 方法 研究 还 存在 很 大 的 空间 和 应 用 价值 。 





二 、 表 型 性 状 的 分 子 遗 传 学 》》) 


人 与 人 之 间 形 态 、 生 理 指标 ,行为 及 疾病 易 感 等 表 型 差异 共同 构成 人 类 本 身 的 多 样 性 。 
而 这 些 复杂 表 型 的 变化 往往 是 由 潜在 的 多 位 点 遗传 复杂 性 ,及 其 遗传 等 位 与 个 体 所 处 环境 
之 间 的 不 同 反 应 造成 的 。 从 DNA 变 异 与 表 型 差异 之 间 的 相关 性 研究 的 角度 ,讨论 数量 或 复 
杂 性 状 产 生 的 原因 对 于 预测 疾病 发 病 风 险 和 个 性 化 治疗 有 重要 的 意义 。 这 里 ,我 们 将 与 某 
些 数量 或 复杂 性 状 形成 相关 的 DNA 区 域 称 为 决定 这 个 性 状 的 数量 性 状 位 点 (quanititative trait 
loci, QTL )。 早 在 20 世 纪 早 期 ,人 们 就 开始 了 对 数量 性 状 的 研究 ,并 采用 遗传 多 态 标 记 与 QTL 
连锁 分 析 的 思想 对 数量 性 状 进 行 遗 传 定位 。 到 20 世 纪 80 年 代 , 数 量 性 状 研究 得 到 了 空前 的 
发 展 ,但 是 遗传 多 态 标记 的 缺乏 大 大 限制 了 它 的 进一步 发 展 。 直 到 最 近 几 年 , 随 着 测序 技术 
的 发 明和 人 类 单 体型 计划 的 实施 和 完成 ,大 量 遗 传 标记 被 发 现 ,而 且 分 型 成 本 不 断 降 低 , 基 
因 组 范围 数量 性 状 的 QTL 定 位 研究 迅速 发 展 ,并 广泛 应 用 于 人 类 性 状 和 疾病 研究 领域 。 

经 过 二 十 多 年 的 努力 ,我 们 已 经 能 够 从 候选 基因 不同 遗传 背景 下 的 等 位 分 离 .生态 与 
环境 对 表 型 影响 功能 等 位 效应 的 分 子 基础 .群体 致 病 等 位 频率 等 方面 对 遗传 变异 与 数量 性 
状 形成 之 进行 解释 。 某 些 研究 通过 QTL 定 位 发 现 了 新 的 疾病 或 复杂 性 状 位 点 ,并 为 揭示 疾 
病 生 物 学 机 制 提 供 新 的 视野 ,但 明确 指出 导致 表 型 和 疾病 形成 的 变异 ,只 占 全 部 表 型 决定 子 
的 一 小 部 分 ,通过 QTL 定 位 直接 发 现 表 型 相关 的 基因 更 是 少 之 又 少 。 不 过 ,这 一 情况 并 不 取 
决 于 目前 对 QTL 定 位 的 研究 方法 ,而 是 与 现在 的 DNA 和 RNA 的 测序 水 平 相关 的 ,将 会 伴随 新 
的 高 通 量 快速、 低廉 的 测序 技术 的 产生 而 取得 新 的 突破 。 

与 质量 性 状 相 比 ,数量 性 状 的 遗传 研究 要 困难 得 多 , 主要 是 由 于 质量 性 状 可 以 通过 表 型 
来 辨别 ,而 数量 性 状 表 型 上 的 差异 不 明显 ,基因 型 与 表 型 间 难 以 找到 准确 的 对 应 关系 。 而 由 
于 人 类 群体 不 可 能 像 在 动 植物 中 进行 杂交 实验 ,所 以 对 人 类 群体 的 数量 性 状 定位 更 加 困难 。 
无 论 是 在 人 类 还 是 在 动 植物 中 ,数量 性 状 定位 的 基本 原理 都 是 数量 性 状 位 点 与 可 见 的 分 型 
分 子 标记 之 间 存 在 遗传 连锁 。 如 果 某 个 QTL 与 某 个 分 子 标记 ( SNP ) 相 联系 ,在 此 位 点 上 具 
有 不 同等 位 的 个 体 具有 不 同 的 数量 性 状 平均 值 。 基 于 这 样 的 思考 ,在 人 类 中 我 们 虽然 不 能 
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进行 特定 的 位 点 杂交 实验 ,但 是 可 以 通过 遗体 遗传 学 方法 进行 位 点 与 数量 表 型 均值 之 间 的 
相关 性 检验 ,从 而 完成 数量 性 状 定位 。 常 用 的 数量 性 状 定位 分 子 标记 除 SNP 外 ,还 有 插入 / 册 
RES MIES, 
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图 9-12 数量 性 状 分 析 流程 图 


显著 相关 位 点 的 检测 和 原因 基因 克隆 是 数量 性 状 定位 的 两 个 要 点 。 图 9-12 显 示 了 基于 
SNP 的 QTL 分 析 基 本 过 程 。 在 人 类 样本 分 析 中 ,由 于 家 系 信息 难以 获得 ,而 主要 通过 关联 分 
析 的 方法 进行 检验 (图 9-12 右 侧 ), 而 相对 的 , 动 植物 研究 中 可 以 方便 地 进行 杂交 实验 ,一 般 
采用 连锁 分 析 的 方法 (图 9-12 左 侧 )。 

人 类 遗传 学 中 进行 数量 性 状 定位 最 常用 的 方法 是 线性 回归 和 方差 分 析 。 方 差分 析 进 行 
数量 性 状 定位 类 似 于 自由 度 为 2 的 皮尔 森 检验 ,这 里 ,将 0 假设 定义 为 数量 性 状 与 SNP 基 因 型 
没有 相关 性 , 备 选 假设 为 有 相关 性 。 而 线性 回归 方法 用 于 数量 性 状 研 究 主 要 考虑 SNP 基 因 
型 与 数量 性 状 平均 值 之 间 的 关系 , 自由 度 为 1。 两 种 情况 下 均 要 求 数量 性 状 呈 近似 正 态 分 布 ， 
如 果 分 布 有 偏差 ,可 以 考虑 进行 对 数 转 换 。 


三 复杂 疾病 的 系统 遗传 学 >>> 


对 于 常见 的 数量 性 状 , 我 们 可 以 很 自然 地 联系 到 身高 .体重 等 看 得 见 的 研究 对 象 , 除 此 之 
外 ,还 能 够 想到 血压 水 平 .血糖 水 平等 与 人 体 健康 检查 有 关 的 症状 反映 或 生化 指标 。 随 着 SNP 
分 型 技术 和 基因 表达 作 谱 技术 的 发 展 , 越 来 越 多 的 研究 把 目标 锁定 在 人 类 基因 表达 调控 子 的 
发 现 上 ,通过 对 同 质 性 样本 的 SNP 分 型 及 基因 表达 绘制 图 谱 , 期 望 建立 分 子 标记 与 基因 表达 之 
间 的 联系 ,这 一 过 程 被 称 作 表达 数量 性 状 位 点 ( expression quantitative trait loci, eQTL ) 定位 。2002 
年 , Rachel 等 人 利用 芯片 表达 技术 与 关联 分 析 相 结合 的 方法 研究 杂交 酵母 的 遗传 变异 与 基因 表 
达 之 间 的 相关 性 。 发 现 众 多 的 基因 表达 是 受 遗 传 变异 影响 的 ,不 同 的 遗传 等 位 有 可 能 导致 不 同 
的 表达 效果 。 这 为 从 遗传 角度 揭示 表 型 形成 提供 了 一 个 有 利 的 证 据 。2004 年 , Michael 等 人 将 
eQTL 研 究 引 入 到 人 类 基因 组 研究 领域 ,通过 对 14 个 家 系 196 个 个 体 的 2980 个 SNP 与 3553 个 转录 子 
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表达 的 测定 ,发 现 170 多 个 SNP 与 之 邻近 的 基因 表达 之 间 存 在 相关 性 ,并 把 这 种 关系 称 之 为 Cis 关 
联 ,此 外 ,还 存在 众多 的 远 距 离 的 SNP 与 基因 表达 之 间 的 相关 性 ( Trans ), 这 一 研究 证 实 人 类 基因 
表达 受到 了 广泛 的 遗传 调控 ,而 且 可 以 通过 数量 性 状 定位 的 方法 将 遗传 变异 和 表达 进行 关联 。 

目前 ,与 基因 组 范围 关联 研究 发 展 相 适应 , eQTL 人 研究 已 经 从 最 初 的 数 以 千 计 的 SNP 与 
基因 表达 规模 发 展 到 数 以 十 万 计 的 SNP 和 2 万 多 基因 表达 之 间 的 关系 ,而 且 从 基于 家 系 和 模 
式 生物 的 研究 逐渐 过 渡 到 基于 不 相关 个 体 的 研究 ,发现 的 人 类 遗传 与 表达 之 间 的 关系 也 越 
来 越 多 。2007 年 10 月 《Nature Genetics》 连 续 发 表 3 篇 文章 进行 人 类 基因 组 范围 的 eQTL 研 
究 。Barbara 等 人 基于 HapMap 样 本 ,进一步 测定 14 000 个 基因 的 表达 情况 ,进行 了 四 个 群体 的 
eQTL 研 究 , 从 群体 比较 方面 揭示 遗传 变异 调控 基因 表达 的 群体 差异 性 。Harald 等 人 将 基于 
淋巴 细胞 的 研究 样本 量 提高 到 1240 个 个 体 ,研究 的 基因 数 高 达 1.9 万 。 而 Anna 等 人 的 研究 首 
次 将 疾病 因素 引入 到 基因 组 范围 关联 研究 中 ,通过 研究 哮喘 家 系 中 的 遗传 变异 与 基因 表达 
之 间 的 关系 ,提出 可 能 实现 联合 eQTL 与 疾病 的 研究 , 易 化 关联 研究 中 的 功能 元 件 提 取 。2008 
年 3 月 Valur 等 人 联合 基因 表达 、 遗 传 变异 及 临床 肥胖 指标 进行 合并 的 QTL 人 研究 进行 疾病 相关 
的 遗传 子 及 功能 元 件 识别 ,并 在 此 基础 上 提出 从 分 子 网 络 的 角度 研究 复杂 疾病 。 

表达 数量 性 状 定位 的 提出 为 生物 医学 研究 展开 了 更 为 广阔 的 视野 ,也 为 从 DNA 一 表达 一 
分 子 表 型 一 性 状 的 研究 提供 了 可 能 。 在 这 样 的 背景 下 ,科学 家 们 提出 系统 遗传 学 ( systems 
genetics ) 概念 , 即 希 望 从 全 面 的 生物 学 资源 出 发 ,人 研究 遗传 因素 对 人 体 生理 病理 的 影响 。 
Trudy 等 人 在 此 基础 上 提出 未 来 的 遗传 定位 研究 的 着 眼 点 (图 9-13 ), 期 望 借助 系统 遗传 学 工 
具 实 现 从 分 子 到 整体 的 全 面 了 解 。 而 表达 与 标记 、 表 达 与 表达 之 间 的 相关 又 能 向 网 络 的 层 
面 进行 转化 ,对 于 获取 生理 学 或 病理 学 功能 信息 将 产生 直接 而 有 效 的 影响 。 




















图 9-13 系统 遗传 学 思想 构建 遗传 调控 网 络 揭示 性 状 形成 机 制 
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图 9-13A 中 显示 了 广泛 应 用 的 纯 合 基因 型 与 数量 性 状 平均 值 线性 回归 方法 获得 与 性 状 
相关 的 遗传 标记 ( SNP ) 的 过 程 , 即 我 们 常 说 的 QTL 定 位 ,将 一 个 宏观 的 指标 与 分 子 层面 的 标 
记 相 互联 系 。B 图 展示 的 是 基因 表达 与 SNP 之 间 的 关联 分 析 过 程 , 即 上 文 讲 到 的 eQTL 定 位 ， 
从 而 捕获 影响 基因 表达 的 SNP, 这 些 SNP 我 们 称 为 调控 SNP, 这 个 过 程 将 基因 表达 和 SNP 进 行 
关联 。C 图 进行 的 是 基因 共 表 达 分 析 。 通 过 B、C 两 图 可 以 构建 出 一 个 基于 遗传 分 析 的 调控 
网 络 ,而 由 于 我 们 已 经 在 SNP 与 表 型 之 间 建 立 起 联系 ,借助 分 子 网 络 的 分 析 手 段 ,能 够 指导 
我 们 发 现 影响 性 状 形成 的 基因 集 , 甚 至 指导 我 们 发 现 与 性 状 发 生 密切 相关 的 网 络 模块 或 通 
路 。 目 前 ,由 于 同时 进行 基因 型 .基因 表达 、 人 类 表 型 的 测定 和 收集 过 程 耗 时 、 耗 力 , 而 且 花 
费 巨 大 ,在 一 定 程度 上 限制 了 系统 遗传 学 的 开展 ,但 随 着 技术 的 革新 ,这 样 的 一 种 研究 思想 
将 逐步 成 为 人 类 生理 病理 研究 的 必由之路 。 








BAP 
系统 遗传 学 集成 软件 工具 


Section 4 Important Tools in SNP Studies 


一 、Plink 软 件 包 与 基因 互 作 》》 


PLINK( http: //pngu.mgh.harvard.edu/~purcell/plink/contact.shtml#cite ) 是 一 个 免费 、 开 
源 的 全 基因 组 关联 分 析 工 具 集 , 旨 在 用 有 效 地 计算 方式 进 行 常规 的 及 大 规模 的 遗传 分 析 .。 
PLINK 的 主要 功能 包括 : 数据 处 理 和 统计 描述 .群体 分 层 检测 .关联 分 析 、IBD 估 计 及 上 位 效 
用 检测 。PLINK 一 般 只 适用 于 群体 数据 ,不 适用 于 家 系数 据 。 本 节 中 以 上 位 效应 为 例 介绍 
PLINK, 

PLINK 用 于 检测 SNP-SNP 间 上 位 效应 所 用 的 默认 检验 模型 主要 有 线性 回归 和 罗杰斯 特 
回归 两 种 ,取决 于 表 型 是 数量 性 状 还 是 二 值 性 状 。 基 于 每 一 个 A 和 B 的 等 位 基因 情况 ,建立 
一 个 模型 : 

Y~bo+b1A+b,B+bsAB+e (9-4) 

互 作 检 验 基于 系数 b;, 因 此 检验 过 程 中 只 是 考虑 等 位 基因 之 间 的 上 位 效用 ,不 考虑 协 变 
量 。SNP-SNP 上 位 效应 检验 可 以 在 病例 /对 照样 本 中 进行 ,也 可 以 只 在 疾病 样本 检测 (也 叫 
做 case-only )。 在 病例 /对 照样 本 中 检测 SNPxSNP 上 位 效应 ,用 以 下 命令 : 


plink ——file mydaya ——epistasis 
一 -epistasis 命 令 用 来 检验 大 量 的 SNP-SNP 互 作 , 但 大 部 分 互 作 没有 显著 意义 或 不 符合 用 
户 要 求 ,虽然 可 能 一 次 操作 会 进行 数 百 万 或 数 十 亿 行 的 计算 ,但 默认 只 输出 p< 10 的 互 作 , 或 者 
用 一 epil 参 数 设 定 。 如 果 数 据 集 比 较 小 ,期 望 输出 所 有 的 检验 结果 ,可 以 用 一 epil 参 数 测定 ,如 : 


plink --file mydata ——epistasis ——epil 0.0001 




















同时 也 可 以 通过 命令 设 定 进行 检验 的 SNP 集 合 , 相 应 的 模式 如 下 : 


任意 SNP 之 间 : plink --file mydata ——epistasis 


集合 1 内 部 : plink --file mydata --epistasis —set-test ——set epi. set 















集合 1- 全 部 : plink --file mydata --epistasis ——set-test ——set epi. set —-set—by—all 
集合 1- 集 合 2: plink --file mydata ——epistasis ——set-test ——set epi. set 

episet 可 以 只 含有 一 个 数据 集 , 也 可 以 包含 有 多 个 数据 集 。 对 于 每 一 个 数据 集 开 头 有 数 
据 集 名 称 , 数 据 结尾 有 END 符 号 。 
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在 病例 样本 中 检测 SNP-SNP 上 位 效应 ,有 两 种 近似 但 更 快速 的 参数 命令 : --fast- 
epistasis 和 -=-case-only, 用 以 下 命令 执行 : 








plink ——file mydata —-fast-epistasis ——case—only 


目前 ,在 case-only 分 析 中 ,默认 状态 下 只 考虑 距离 1Mb 以 上 或 不 在 同一 条 染色 体 上 的 
SNP, 其 他 SNP 上 位 效应 计算 ,可 以 通过 -gap 参 数 设 定 SNP 之 间 的 距离 ,如 下 : 





plink ——file mydata —-fast-epistasis ——case-only ——gap 5000 


-gap 是 一 个 很 重要 的 参数 ,但 使 用 时 应 当 慎 重 , 因为 用 case-only 检 验 上 位 效应 的 两 个 
SNPs 在 群体 中 应 处 于 连锁 平衡 状态 

通过 以 上 的 命令 A ,我们 已 经 了 解 hlink 计 算 上 位 效应 的 基本 方法 , 表 9-4 中 列 出 了 计算 上 
位 效应 中 常用 的 命令 和 默认 参数 。 


表 9-4 Plink 计 算 上 位 效应 的 参数 列表 


命令 O SERBERE å o Hate 
—file 指定 .ped 和 .map 文 件 
一 -epistasis 进行 SNP 之 间 的 上 位 效应 分 析 
一 -fast-epistasis 快速 进行 任意 两 个 SNP 之 间 的 上 位 效应 计算 
一 -twolocus SNP SNP 显示 两 个 SNP 互 作 列表 
——case-only 只 能 疾病 样本 进行 上 位 效应 计算 
— gap 1000 限定 距离 的 SNP 上 位 效应 计算 
—epil 0.0001 fa th ERU Ep ED F LRL AY Xt 
—set-by-all 检验 集合 中 的 SNP 上 位 效应 
一 -nop 进行 快速 第 选 ,不 计算 p 值 
一 -genepi 进行 基于 基因 的 上 位 效应 计算 


Plink 的 输入 文件 有 两 个 ,分 别 以 : ped 和 .map 作 为 后 级 。PED 和 MAP 文 件 是 用 空格 或 Tab 
分 割 的 文件 , PED 文 件 的 每 一 行 代表 一 个 样本 描述 ,并 且 前 六 列 描述 信息 是 必需 的 ,如 缺失 
应 当 用 0 代替 ， tena MAP 文 件 的 每 一 行 是 一 个 SNP 的 染色 体 定位 ( 表 9-5 )。 


表 9-5 PED 和 MAP 文 件 说 明 


” 列 数 | PEDXS 一 MAP 文 件 
第 1 列 个 体 所 在 家 系 ID SNP 所 在 染色 体 " 
第 2 列 个 体 在 家 系 中 的 编号 SNP 标 识 符 
第 3 列 个 体 对 应 的 父亲 编号 SNP 的 遗传 距离 
第 4 列 个 体 对 应 的 母亲 编号 SNP 的 绝对 位 置 
第 5 列 性 别 
第 6 列 表 型 状态 


注 : al 代表 男性 ,2 代表 女性 ,其 他 标记 表明 性 别 未 知 , b 分 别 使 用 1-22 数 字 , X, Y 表 ,0 代表 所 在 染色 体 
未 知 , C1 表 示 为 对 照 个 体 ,2 表示 为 疾病 个 体 。 
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输出 文件 包括 plink.epicc 和 plink.epi.cc.summary。plink.epi.cc 文 件 显示 以 下 信息 : 
GDCHR1 ,第 一 个 SNP 所 在 的 染色 体 ; CDSNP1 ,第 一 个 SNP 识 别 符 ; BCHR2 , 互 作 的 SNP 所 在 的 
染色 体 ; @SNP2, 互 作 的 SNP 识 别 符 ; BOR_INT, 两 位 点 互 作 的 ood ratio 值 ; OSTAT, 自由 度 
为 1 的 卡 方 检验 统计 量 ; OP, 显著 性 水 平 。plink.epi.cec.summary 文 件 显示 以 下 信息 : OCHR, 
染色 体 编号 ; OSNP, SNP 标 识 符 ; @N_SIG, 上 位 效应 的 显著 性 检验 (p<="--epi2" 阅 值 ); 
GN. TOT, 可 执行 检验 ; OPROP, 可 执行 检验 的 百分数 ; (OBEST_CHISQ , 与 互 作 的 SNP 检 验 
结果 ; COBEST. CHR, 互 作 的 SNP 染 色 体 编号 ; (@)BEST_SNP, 互 作 的 SNP 标 识 符 。 


二 、 基 因 组 范围 关联 研究 软件 包 SNPtest 》》 


SNPtest( http: //www.stats.ox.ac.uk/967 Emarchini/software/gwas/snptest.html ) 是 一 个 强大 的 
基因 组 范围 关联 研究 软件 包 , 它 可 以 对 单个 SNP 关 联 进行 频率 检验 或 贝 叶 斯 检验 ,值得 注意 
的 是 , 它 的 实施 只 适合 于 二 进 制 (病例 对 照 ) 性 状 ,但 该 软件 可 以 根据 任意 的 协 变量 集 进行 设 
置 ,并 且 能 够 考虑 基因 型 的 不 确定 情况 。 目 前 ,被 广泛 应 用 的 WTCCC 中 ,7 套 复 杂 疾 病 的 基 
因 组 范围 关联 研究 ,就 是 采用 该 软件 进行 的 数据 分 析 。SNPtest 同 时 提供 了 2000 个 个 体 中 100 
个 SNP 的 疾病 -对 照 示例 文件 。 


(一 ) 软件 的 输入 文件 


SNPtest 允 许 分 析 多 组 个 体 。 每 组 数据 存 为 两 个 文件 : 第 一 个 文件 为 样本 文件 ,存储 的 是 
ID 号 .关联 协 变量 和 每 组 个 体 的 表 型 信息 ; 第 二 个 文件 为 基因 型 文件 ,存储 的 是 每 组 基因 型 
数据 。 软 件 当 中 包括 的 例子 数据 集中 每 组 的 样本 和 基因 型 文件 分 别 有 符 合 要 求 的 _sample 
和 _gen 样 文件 。 

基因 型 文件 格式 ( gen ): 该 文件 每 行 表示 一 个 SNP 信 息 , 前 5 列 分 别 为 : SNP ID, RS ID, 
SNP 碱 基 对 位 置 .两 个 等 位 基因 ( M、N ); 接 下 来 的 3 个 数字 表示 三 种 基因 型 MM、MN、NN 在 
第 一 个 个 体 中 出 现 的 概率 值 ,再 接 下 来 的 3 个 数字 表示 三 种 基因 型 在 第 二 个 个 体 中 出 现 的 概 
率 , 以 此 类 推 。 并 且 个 体 的 顺序 应 该 与 _ sample 文 件 中 个 体 的 顺序 相同 。 同 时 ,考虑 到 缺失 
基因 型 情况 ,因此 基因 型 概率 之 和 不 必 均 为 1。 当 对 多 组 执行 SNPtest 时 ,我 们 假设 每 组 数据 
的 SNP 集 大 小 相同 并 且 这 些 SNP 在 每 组 的 基因 型 文件 中 的 存储 顺序 相同 。 

样本 文件 格式 ( sample ): 该 文件 包括 三 个 部 分 : 第 一 行 ,表示 每 一 列 的 名 字 ; 第 二 行 ， 
每 一 列 所 存储 变量 的 类 型 ; 接 下 来 的 每 行 表示 一 个 个 体 的 详细 相关 信息 。 例 如 : 


missing cov ] cov. 2 ‘OV cov_4 phenotype 1 
0 1 2 E 3 p 

0.007 —0.008 1.233 

0.009 -0.001 6.234 


0.007 
0.004 


-0.011 3.234 
0.0236 2.786 


2 
2 
0.005 2 È 0.0028 6.121 
1 
2 





第 一 行 分 别 表 示 : 个 体 的 第 一 个 ID 号 .第 二 个 ID 号 ,个体 中 缺失 值 的 比例 ,这 三 个 是 必须 
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要 有 的 , 接 下 来 的 分 别 表示 变量 的 名 字 。 上 面 的 例子 中 ,有 4 个 协 变量 cov_1, cov 2, cov 3, 
cov_4 和 1 个 表 型 名 字 phenotype_1.。 

第 二 行 表示 每 列 中 变量 的 类 型 ,前 3 个 设置 为 0, 接 下 来 的 位 置 应 遵循 下 面 的 规则 : 


离散 的 协 变量 (用 正 整 数 表示 ), 对 关联 进行 Mantel-Haentzel 检 验 
离散 的 协 变 量 (用 正 整 数 表 示 ), 对 关联 进行 跨 群 体 的 整合 检验 


连续 协 变量 
表 型 





(=) 软件 包 中 的 分 析 模 块 


1. 数据 的 统计 描述 SNPTEST 最 基本 的 用 途 是 对 SNP 数 据 基本 信息 进行 描述 ,生成 包 
括 基 因 型 数目 \ 等 位 基因 频率 、SNP 缺 失 数 据 比例 和 优势 比 等 的 描述 信息 ,这 个 功能 用 以 下 
命令 行 可 以 实现 : 


. /snptest —cases . /example/cases. gen . /example/cases. sample 





—controls . /example/controls. gen . /example/controls. sample —o . /example/ex. out 


2. 压缩 文件 输入 命令 ”SNPtest 支 持 压缩 文件 , 当 基 因 型 文件 相当 大 的 时 候 会 以 压缩 文 
件 的 形式 给 出 ,那么 在 SNPTEST 中 有 一 个 命令 -gen_gz 就 表示 输入 的 文件 为 压缩 形式 ,在 命 
令 行 中 输入 : 


. /snptest —gen_gz —cases. /example/cases. gen. gz. /example/cases. sample 





—controls. /example/controls. gen. gz. /example/controls. sample —o . /example/ex. out 


会 输出 同上 面 所 介绍 的 相同 的 结果 文件 ./example/ex.out。 

3. 计算 数据 缺失 率 ”样本 文件 的 第 三 列 包含 每 个 个 体 的 缺失 数据 比例 。 这 有 利于 滤 除 
那些 缺失 数据 率 高 的 个 体 ,命令 -create_misske 可 用 来 计算 形成 样本 文件 所 需 的 缺失 数据 率 。 
例如 ,计算 第 一 个 对 照 组 的 缺失 数据 率 ,可 以 使 用 如 下 的 命令 行 : 


. /snptest —create miss. /example/controls. gen —o. /example/ex. out 


4. 排除 SNP 及 (或 ) 个 体 ”排除 SNP: 命令 -exclude_snps 可 被 用 来 指定 一 个 文件 ,该 文件 
中 包含 一 列 分 析 当 中 应 当 排 除 的 SNP。 例 如 ,文件 ./example/snps.list 包 含 了 一 列 example 文 件 
数据 的 前 10 个 SNP 编 号 ,为 了 从 分 析 当 中 排除 这 些 SNP 我 们 使 用 下 面 的 命令 行 : 





. /snptest —cases. /example/cases.gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out 





—exclude snps. /example/snps. list 


另外 ,程序 还 提供 命令 -snpid 来 对 单个 的 SNP 执 行 此 功能 。 例 如 ,对 编号 为 61 的 SNP 运 行 
SNPTEST ,我 们 用 下 面 的 命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen ./example/controls. sample —o. /example/ex. out —snpid 61 
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排除 个 体 : 命令 -exclude_samples 可 被 用 来 指定 一 个 文件 ,该 文件 中 包含 一 列 分 析 当 中 
应 当 排除 的 个 体 。 例 如 ,文件 Jexample/samples.list 包 含 ER SS 
ID 号 ,为 了 从 分 析 当 中 排除 这 些 个 体 我 们 用 下 面 的 命令 和 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —exclude_ 





samples. /example/samples. list 


命 令 -miss_ thresh 可 被 用 于 排除 那些 缺失 数据 比例 达到 某 一 水 平 的 个 体 。 例 如 ,为 了 指 
定 最 大 缺失 数据 比例 为 1%, 我 们 利用 下 面 的 命令 令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —miss 


thresh 0.01 


5. 哈代 温 伯 格 平衡 检验 ”命令 -hwe 表 示 在 输出 结果 中 显示 出 每 个 SNP 的 HWE 检 验 结 
果 。 例 如 : 





. /snptest -cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out -hwe 





将 产生 一 个 输出 文件 example/ex.out ,该 文件 的 列 包含 的 是 对 每 个 对 照 组 的 精确 HWE 检 
验 的 p 值 .对 照 组 的 整合 集 、 每 个 病例 组 HWE 检 验 p 值 病例 组 整合 集 。 
6. 基本 的 关联 检验 ”病例 对 照 检验 : 对 加 性 、 显 性 、 隐 性 、 常 规 及 困 合 FS 个 模型 的 关联 
行 标准 频率 病例 对 照 检验 ,可 由 命令 -frequentist 来 执行 。 例 如 ,下 面 的 命令 行 被 用 来 对 这 
四 种 模型 进行 检验 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls.gen. /example/controls. sample —o. /example/ex. out —frequentist 


12345 





5 种 不 同 的 模型 编号 为 : 1- 加 性 模型 ,2- 显 性 模型 ,3- 隐 性 模型 ,4- 常 规模 型 ,5- 杂 合子 
模型 。 加 性 模型 是 对 加 性 遗传 效应 进行 Cochran-Armitage 检 测 。 显 性 模型 和 隐 性 模型 是 将 
AA 基 因 型 当 作 起 点 基因 型 。 常 规模 型 则 是 对 关联 进行 自由 度 为 2 的 标准 检验 。 

输出 文件 为 .Jexample/ex.out ,包含 了 每 个 SNP 所 有 如 前 面 描述 的 概要 信息 。 四 个 检验 的 P 
值 分 别 在 frequentist_add, frequentist_dom, frequentist_rec, frequentist_gen and frequentist_het 列 
中 给 出 。 

数量 性 状 检验 : 对 SNP 与 一 个 数量 性 状 关联 的 检验 可 以 用 -qt 命令 来 执行 。 对 每 个 SNP 
的 关联 该 命令 是 通过 F- 检验 来 执行 的 。 命 令 -frequentist 被 用 来 指定 每 个 SNP 的 基因 型 编码 。 
每 个 个 体 的 基因 型 必须 出 现在 样本 文件 当中 。 在 默认 情况 下 ,检验 将 使 用 样本 文件 当中 的 
第 一 个 基因 型 。 用 户 应 当 用 -pheno 这 一 命令 来 指定 你 所 要 检测 的 表 型 。 例 如 下 面 的 命令 行 ， 
是 对 例子 数据 集中 的 第 二 个 表 型 在 5 个 不 同 模型 中 进行 检验 : 


. /snptest —cases. /example/cases. gen. /example/cases.sample 


controls. /example/controls.gen. /example/controls. sample —o. /example/ex. out -qt -pheno 


2 -frequentist 1234 5 
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7. 协 变 量 命令 -cov 被 用 于 存在 协 变 量 时 进行 关联 的 检测 。 例 如 ,在 考虑 到 样本 文件 
中 的 第 二 个 协 变 量 时 对 一 个 加 性 模型 进行 关联 检测 时 ,我 们 可 用 下 面 的 命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —frequentist 





] -cov 2 


产生 输出 文件 ./example/ex.out, 该 文件 包含 了 一 个 表 头 frequentist_add_cov_1 的 列 ,包含 
了 基于 协 变量 检测 得 到 的 p 值 。 

8. 贝 叶 斯 检验 ”用 命令 -bayesian 可 对 5 个 标准 遗传 模型 进行 贝 叶 斯 检验 。 例 如 ,下 面 的 
命令 行 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —bayesian | 


2345 





产生 一 个 输出 文件 ,包含 以 下 几 列 信息 : bayesian add, bayesian dom, bayesian rec, bayesian_ 
gen and bayesian_het。 

9. 考虑 基因 型 不 确定 的 情况 ”改变 所 需 国 值 : 程序 的 默认 设置 为 利用 一 个 国 值 来 将 基 
因 型 命名 为 AA、AB、BB 或 NULL。 对 关联 做 频率 和 贝 叶 斯 检验 将 基于 这 些 默认 阔 值 基因 型 
来 执行 .如果 基 因 型 大 于 所 需 国 值 那么 我 们 选择 最 大 概率 的 基因 型 ,否则 引入 NULL 基 因 型 。 
默认 冰 值 为 0.9, 此 靖 值 是 可 改变 的 ,用 命令 -call_thresh 来 改变 。 例 如 ,为 了 产生 一 个 基于 效 
值 为 0.95 的 基本 检验 集 , 我 们 执行 下 面 的 命令 行 : 


. /snptest—cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —call_ 


thresh 0.95 —frequentist 1 234 


频率 检验 : 命令 -proper 可 被 用 来 考虑 基因 型 不 确定 的 情况 。 该 命令 执行 一 个 基于 缺失 
数据 可 能 性 的 统计 学 检验 。 该 命令 与 -cov、-qt 两 个 命令 一 起 用 。 例 如 ,下 面 的 命令 行 : 





. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —frequentist 





1 -proper 
此 命令 产生 一 个 输出 文件 ,包含 以 下 几 列 信息 : frequentist add. proper, frequentist, add 


proper info, frequentist add, proper beta l,frequentist add proper se 1. 

贝 叶 斯 检验 : 在 考虑 基因 型 不 确定 的 情况 下 计算 贝 叶 斯 因子 时 ,是 通过 基于 基因 型 概 
率 抽取 基因 型 使 贝斯 因子 结果 平均 化 。 命 令 -nsamp 指 定 了 应 该 用 到 的 基因 型 样本 数目 。 
-certainty_thresh 命 令 可 用 来 指定 在 哪个 SNP 中 进行 了 抽样 。 例 如 下 面 的 命令 行 : 


. /snptest —cases. /example/cases. gen. /example/cases. sample 


—controls. /example/controls. gen. /example/controls. sample —o. /example/ex. out —bayesian 1 





-nsamp 100 —certainty thresh 0.95 


此 命令 产生 了 一 个 列 为 bayesian_add_samp 的 输出 文件 ,表示 在 加 性 模型 中 样本 均值 为 
log 10 贝 叶 斯 因子 。 
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三 、 连 锁 分 析 和 数量 性 状 分 析 工 具 Merlin >> 


Merlin( http: //www.sph.umich.edu/csg/abecasis/Merlin/index.html ) 是 一 个 利用 稀 朴 遗传 树 
进行 系谱 分 析 的 软件 包 。Merlin 利 用 稀 玻 树 来 代表 系谱 中 的 基因 , 它 是 最 快 的 谱系 分 析 软 件 
包 之 一 。Merlin 能 够 被 用 于 参数 或 非 参 数 的 连锁 分 析 , 以 回归 为 基础 的 连锁 分 析 或 对 数量 性 
状 的 关联 分 析 , IBD 和 亲属 关系 的 估计 , 单 体型 分 析 , 错 误 检 测 和 模拟 分 析 。 在 大 部 分 分 析 
中 标记 之 间 可 以 存在 连锁 不 平衡 状态 ,并 且 能 够 比 其 他 的 系谱 分 析 软件 包 处 理 更 多 的 标记 。 

Merlin 进 行 普遍 的 家 系 分 析 。 输 入 文件 描述 数据 集中 个 体 之 间 的 关系 ,储存 了 标记 基因 
型 ,疾病 的 状况 和 数量 性 状 标记 信息 ,并 提供 了 位 点 定位 及 等 位 基因 频率 信息 。Merlin 支 持 
QTDT 或 LINKAGE 格 式 的 输入 文件 。 这 两 种 格式 非常 相似 ,在 以 下 的 讨论 中 我 们 将 主要 关注 
QTDT 格 式 。 

(一 ) 群体 分 层 分 析 

虽然 家 系 会 变 得 非常 复杂 ,在 一 个 家 系 文件 中 所 有 用 于 重建 个 体 间 关系 的 信息 可 以 概 
括 为 5 个 项 目 ; 一 个 家 庭 的 标识 符 , 个 体 识别 码 ,与 每 位 家 长 的 链接 (如 果 有 的 话 ), 最 后 一 个 
指标 是 每 个 个 体 的 性 别 。 

以 下 为 是 一 个 虚拟 的 家 系 文件 : 


FAMILY PERSON FATHER MOTHER 


example granpa unknown unknown 


example granny unknown unknown 


example father unknown unknown 
example mother granpa granny 
example sister father mother 


example brother father mother 





这 些 关键 值 构成 了 任何 一 个 家 系 文件 的 前 五 列 。 由 于 在 早期 的 遗传 程序 中 存在 的 限制 ， 
文本 标识 符 通 常 被 唯一 的 数值 所 取代 。 每 个 标识 符 被 唯一 的 整数 所 替代 且 将 性 别 编码 为 女 
性 为 2 ,男性 为 1 之 后 ,一 个 基本 的 以 空格 分 隔 的 家 系 文件 会 是 以 下 这 种 形式 : 


<contents of basic. ped> 





<end of basic. ped> 


一 个 家 系 文件 可 以 包括 多 个 家 庭 。 每 个 家 庭 都 有 唯一 的 结构 ,在 数据 集中 与 其 他 家 庭 
之 间 存 在 独立 性 。 
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(二 ) 表 型 与 基因 型 





通常 标准 的 5 列 之 后 的 各 种 类 型 的 基因 数据 ,包括 离散 的 表 型 数据 ,数量 性 状 数据 和 标 
记 基 因 型 数据 。 
疾病 状况 通常 在 单独 的 一 列 进行 编码 : 





U or 1 for unaffecteds, A or 2 for affecteds, and X or 0 for missing phenotypes. 

编码 数量 性 状 时 用 X 表 示 缺 失 值 (也 可 以 使 用 一 种 特殊 的 数值 表示 缺失 的 表 型 值 , 但 该 
程序 容易 出 错 , 不 推荐 )。 

标记 基因 型 被 编码 成 用 两 个 连续 的 整数 ,对 于 每 一 个 等 位 基因 用 一 个 “/” 进 行 分 隔 , 或 
自 1.1 版 本 后 使 用 字母 “A”,“C”,“T” 和 “G” 来 编码 。 为 了 表示 缺失 的 基因 ,可 以 用 0,X 或 N。 
以 下 是 所 有 有 效 的 基因 型 项 1/1( 等 位 基因 为 1 的 纯 合 子 ),0/0( 缺 失 的 基因 型 ), 及 3/4( 等 位 基 
因为 3 和 4 的 杂 合 子 )。 在 Merlin 的 较 新 版 本 A/A ,A/C 和 C/C 也 是 有 效 的 基因 型 。 对 于 X 染 色 体 ， 
男性 应 该 像 他 们 好 像 有 两 个 相同 的 等 位 基因 那样 被 编码 。 

以 下 为 前 面 的 家 系 文件 添加 了 疾病 状况 ,对 数量 性 状 的 测量 值 和 两 个 标记 的 基因 型 后 
所 呈现 的 形式 : 

<contents of basic2. ped> 


1 
1 
1 
1 
1 


1 6 





«end of basic2. ped» 


注意 第 5 个 个 体 和 第 6 个 个 体 , 她 们 都 被 标记 成 易 感 ( 她 们 在 第 6 列 的 值 为 2 ), 其 他 的 每 
个 个 体 都 被 标记 成 非 易 感 的 (他 们 在 第 6 列 的 值 为 1 )。 她 们 的 数量 性 状 (第 7 列 ) 值 为 1.234 和 
4.321。 尽 管 每 个 个 体 在 第 一 个 标记 上 都 进行 了 基因 分 型 ,但 对 于 第 二 个 标记 ,只 有 个 体 5 和 
个 体 6 进 行 了 基因 分 型 。 


(三 ) 家 系数 据 分 析 


家 系 文件 所 包含 的 标记 基因 型 ,疾病 的 状况 和 数量 性 状 变量 的 个 数 只 受 可 用 内 存 的 限 
制 。 由 于 每 个 家 系 文件 具有 唯一 的 结构 (除了 第 一 个 5 列 ), 其 内 容 必须 在 与 其 配对 的 数据 文 
件 中 被 描述 。 

数据 文件 包括 家 系 文件 中 的 每 行 数据 项 ,显示 出 了 数据 类 型 (将 标记 编码 为 M, 将 易 感 
状况 编码 为 A, 将 数量 性 状 编码 为 T, 并 将 相关 变量 编码 为 C ) 并 为 每 一 个 数据 项 提供 了 一 个 
用 一 个 单词 表示 的 标签 。 对 应 于 上 述 家 系 的 包含 有 一 个 易 感 状况 , 接 下 来 是 一 个 数量 性 状 
和 两 种 标记 基因 型 的 数据 文件 的 具体 形式 如 下 所 见 : 
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<contents of basic2. dat> 


A some_disease 


T some. trait 
M some. marker 
M another. marker 


«end of basic2. dat» 


可 以 利用 pedstats( 包 含 在 Merlin 分 布 中 ) 得 到 任何 一 组 家 系 文件 和 数据 文件 的 概括 性 描 
述 。 要 运行 pedstats 你 必须 提供 你 的 数据 文件 的 名 称 ( -d 命 令 行 选项 ) 和 家 系 文件 的 名 称 ( -p 
命令 行 选项 )。 在 Merlin 的 例子 的 目录 中 ,尝试 下 面 的 命令 : 








prompt» pedstats -d basic2. dat —p basic2. ped 


小 提示 : 在 Merlin 和 Pedstats 的 新 版 本 中 ,就 可 以 组 合 多 个 家 系 和 数据 文件 。 这 种 方法 在 
分 析 多 个 不 同 的 子 集 或 你 想 通过 染色 体 或 区 域 划分 基因 型 时 非常 方便 。 例 如 ,如 果 你 的 表 
型 数据 存储 在 pheno.dat 和 pheno.ped 文 件 中 , 且 你 的 基因 型 数据 存储 在 geno.dat 和 geno.ped 文 
件 中 ,你 可 以 利用 以 下 命令 行 组 合 它 们 : 


prompt» pedstats —d pheno. dat, geno. dat -p pheno. ped, geno. ped 











(四 ) 遗传 定位 


为 了 分 析 遗 传 标 记 , Merlin 需 要 它们 在 染色 体 上 的 定位 信息 。 这 通常 提供 了 一 个 
定位 文件 。 如 果 你 正在 使 用 性 别 平 均 定 位 ,此 文件 中 的 每 个 标记 占 一 行 三 列 , 显 示 出 
染色 体 ,标记 名 称 和 位 置 (以 厘 摩 为 单位 )。 如 果 你 正在 使 用 的 是 性 别 特异 性 定位 ,你 
需要 另外 两 列 分 别 来 指定 治 女 性 遗传 方向 定位 的 标记 位 置 和 沿 男 性 遗传 方向 定位 的 
标记 位 置 。 

数据 文件 和 定位 文件 可 以 包含 不 同 的 标记 集合 ,但 那些 在 定位 文件 中 缺少 标记 就 会 被 
Merlin 忽 略 。 下 面 是 一 个 典型 的 定位 文件 ,如 下 所 示 : 


<contents of basic2. map> 


CHROMOSOME MARKER POSITION 
24 some_marker 123.4 
24 another_marker 136.2 





<end of basic2. map> 


这 里 是 一 个 精密 版 本 的 定位 文件 ,包括 每 个 标记 的 性 别 特异 性 定位 位 置 : 


«contents of file with sex-specific map» 
CHROMOSOME MARKER POSITION — FEMALE POSITION —. MALE POSITION 
24 some, marker 123.4 146.8 100.0 
24 another. marker 136.2 166.4 103.0 


«end of sex-specific map» 





使 用 划分 后 的 数据 和 定位 文件 作出 了 一 个 非常 简单 的 文件 结构 ,并 允许 Merlin 在 一 个 单 
一 的 运行 中 分 析 多 个 染色 体 。 
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(五 ) 等 位 频率 分 析 


LINKAGE 格 式 数据 文件 指定 在 每 个 位 点 上 的 等 位 基因 的 个 数 和 它们 的 频率 。 当 使 用 
QTDT 格 式 输入 文件 时 , Merlin 通 过 计算 所 有 个 体 的 等 位 基因 个 数 来 估计 等 位 基因 的 频率 。 
如 果 这 种 方法 得 到 的 等 位 基因 频率 对 于 现在 的 分 析 不 适合 ,你 需要 对 等 位 基因 频率 进行 最 
大 似 然 估计 ( -fm 命令 行 选项 ), 规 定 合 适 的 等 位 基因 频率 ( -fe ), 要 求 只 通过 在 创建 者 间 进 
行 计算 所 获得 的 估计 值 ( -ff ), 或 提供 一 个 自 定义 等 位 基因 频率 文件 ( -f 文 件 名 选项 )。 

一 个 自 定义 等 位 基因 频率 文件 指出 了 在 每 一 个 标记 处 的 所 有 标记 等 位 基因 的 频率 。 对 
于 每 一 个 标记 ,用 来 命名 标记 的 单一 的 标题 行 之 后 接 下 来 是 一 系列 等 位 基因 频率 , 它 可 占用 
很 多 行 。 

每 个 标题 行 以 M 作 为 标签 ,并 包括 标记 的 名 称 。 接 下 来 的 一 系列 等 位 基因 频率 有 两 种 可 
选择 的 格式 : 四 经 典 格式 : 等 位 基因 频率 列表 中 的 每 行 以 F 作 为 标签 , 且 列 表 中 所 有 等 位 基因 
的 频率 都 是 连续 的 ,以 等 位 基因 1 作为 开始 。 这 种 格式 对 于 具有 少量 等 位 基因 的 标记 来 说 很 
方便 ; @ 扩 展 格 式 : 等 位 基因 频率 列表 中 的 每 行 以 A 作为 标签 , 且 包 含 一 个 数字 的 等 位 基因 标 
签 , 接 下 来 是 一 个 等 位 基因 频率 。 在 列表 中 没有 被 明确 列 出 的 等 位 基因 被 估计 成 频率 为 0。 

经 典 等 位 不 平衡 模式 

例如 ,如 果 some_marker 有 四 个 等 位 基因 ,频率 分 别 为 0.1,0.2,0.3 和 0.4, another_marker 有 
两 个 等 位 基因 ,频率 分 别 为 0.6 和 0.4, 那 它们 在 文件 中 为 以 下 形式 : 





<contents of basic2. freq> 


M some_marker 


<contents of basic2. freq> F 0.1 


M some marker F 0.2 
F 0.10.2 0.3 0.4 或 F 0.3 
M another_marker T F 0.4 
F 0.6 0.4 M another_marker 
<end of basic2. freq> F 0.6 
F 0.4 


<end of basic2. freq> 





(六 ) 等 位 扩展 


这 种 格式 被 推荐 用 于 微 卫星 和 其 他 具有 大 量 等 位 基因 的 标记 。 例 如 ,如 果 你 正在 分 析 
一 个 具有 152 个 .154 个 和 156 个 基础 对 的 等 位 基因 的 微 卫星 标记 , 且 它 们 的 频率 分 别 为 0.5、 
0.4 和 0.1 ,那么 频率 文件 可 以 被 写成 以 下 的 形式 : 


<contents of allele frequency file> 
M some. microsatellite 
A 152 0.5 
A 1540.4 
A 156 0.1 





«end of allele frequency file» 
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(七 ) 关联 分 析 模 块 


Merlin 也 可 以 检测 一 个 SNP 与 一 个 或 多 个 数量 性 状 之 间 的 关联 性 。 在 Merlin 中 进行 的 关 
联 性 检测 包括 一 个 集成 的 基因 型 推理 功能 , 它 可 以 在 一 些 基 因 型 缺失 的 情况 下 提高 工作 效 
能 。 在 这 个 例子 中 ,我 们 将 看 到 如 何 利用 Merlin 进 行 关联 分 析 , 以 及 如 何 利用 集成 的 基因 型 
推理 功能 估计 缺失 的 基因 型 。 

Merlin 进 行 的 关联 检测 可 以 用 来 全 基因 组 关联 性 扫描 ,或 用 于 候选 区 域 研究 。 不 过 , 重 
要 的 是 要 注意 与 标准 的 以 家 庭 为 基础 的 关联 测试 的 相 比 ,在 Merlin 中 进行 的 检测 并 不 控制 群 
体 分 层 。 如 果 群 体 分 层 是 一 个 要 关注 的 方面 ,那么 群体 的 成 员 应 该 作为 相关 变量 被 包括 在 
其 中 或 用 基因 控制 的 方法 来 矫正 结果 。 

要 运行 Merlin 中 的 关联 分 析 ,我 们 需要 指定 数据 集合 ( -d 参 数 ), 一 个 家 系 ( -p 参 数 ) 和 定 
位 文件 ( -m 参 数 )。 此 外 ,我们 需要 下 列 关 联 性 检测 之 一 : 打分 检测 ( -fastAssoc ) 或 似 然 比 检 
验 ( -assoc )。 打 分 检测 ( -fastAssoc ) 能 够 快速 理想 的 筛选 大 量 的 标记 (例如 ,在 一 个 全 基因 
组 范围 关联 扫描 的 第 一 阶段 中 ), 而 更 精确 的 似 然 比 检验 ( -assoc ) 可 以 用 来 评估 数量 较 少 的 
标记 (例如 ,可 用 于 在 候选 区 域 进行 挑选 的 后 续 分 析 中 )。 在 只 包含 较 小 家 系 的 数据 集 或 当 
被 评估 的 影响 较 小 时 ,这 两 项 检测 会 给 出 类 似 的 结果 。 





prompt» merlin —d assoc. dat —p assoc. ped —m assoc. map —fastAssoc 





prompt» merlin -d assoc. dat —p assoc. ped —m assoc. map —assoc 


-assoc 和 -fastAssoc ,是 两 个 最 常用 于 检测 关联 性 的 命令 ,上 面 的 命令 行 是 采用 这 两 个 命 
令 的 输入 格式 。 这 些 命令 在 Merlin 中 用 于 常 染色 体 分 析 , 且 在 Minx 中 用 于 X- 连 锁 标 记分 析 。 
命令 运行 中 ,还 可 以 采用 -PDF 选项 和 -inverseNormal 选 项 对 结果 进行 了 图 形 化 的 概括 或 自动 
变换 性 状 使 它们 遵循 平稳 的 正 态 分 布 。 


( 徐 良 德 FF Ak) 
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miRNA 与 复杂 疾病 


miRNA AND COMPLEX DISEASE 





5B — TJ 
miRNA 与 其 靶 基 因 


一 .miRNA 概 述 》》 


1993 年 ,研究 人 员 Victor Ambros 等 人 发 现 了 一 个 能 够 影响 秀丽 新 小 杆 线虫 发 育 的 基因 。 
他 们 发 现 其 产物 是 一 个 小 的 非 编 码 RNA ,将 其 命名 为 Lin-4。 它 通过 与 基因 Lin-14 的 3” 端 非 
翻译 区 ( untranslated region, UTR) 相互 作用 ,调节 线虫 的 发 育 。 在 2000 年 , 另 一 研究 小 组 在 
对 秀丽 新 小 杆 线虫 发 育 过 程 的 研究 中 又 发 现 了 另 一 个 小 的 调控 RNA 一 一 Let-7。 短 期 内 , 研 
究 人 员 在 哺乳 动物 中 发 现 许多 Let-7 的 同 源 物 。 这 些 同 源 物 与 线虫 中 的 Let-7 具 有 相似 的 时 
间 表 达 模 式 。 不 和 久 后 ,人 们 在 线虫 . 果 蝇 斑马 鱼 . 拟 南 芥 , 水 稻 以 及 人 类 等 多 种 真 核 生物 中 
找到 了 上 百 个 类 似 的 小 分 子 RNA ,并 将 其 称 为 miRNA。 

miRNA 是 一 种 长 度 大 约 为 22nt 的 内 源 性 单 链 RNA 分 子 , 能 够 调控 基因 的 表达 。 据 推测 ， 
人 类 有 超过 三 分 之 一 的 基因 受 miRNA 调 控 。 目 前 ,已 有 超过 1000 种 人 类 miRNA 被 发 现 。 随 
着 人 们 对 miRNA 研 究 的 深入 ,许多 其 他 类 型 的 小 RNA 陆 续 在 动物 .植物 以 及 真菌 中 被 发 现 。 
这 些小 RNA 包 括 内 源 性 小 干扰 RNA( small interfering RNA, siRNA ) fllpiwi-interacting RNA 
(piRNA )。 同 miRNA 一 样 ,这 些小 RNA 具 有 RNA 沉 默 的 功能 。 然 而 , miRNA 与 这 些小 RNA 
在 生物 合成 上 明显 不 同 。miRNA 是 来 自 于 自身 转录 本 所 形成 的 发 夹 结构 ,而 其 他 类 型 的 小 
RNA 或 者 来 自 于 更 长 的 发 夹 结构 ,或 者 来 自 于 RNA 二 聚 物 ( siRNA ), 还 可 能 来 自 没 有 任何 双 
链 结构 的 前 体 ( piRNA )。 

人 们 对 通过 miRNA 基 因 组 的 分 析 发 现 ,超过 50% 的 哺乳 动物 miRNA 位 于 基因 内 ,这 些 
miRNA 可 以 与 它们 的 宿主 基因 一 同 转录 。 其 他 的 miRNA 则 位 于 基因 间 区 ,一 般 认 为 ,这 些 
miRNA 具 有 自己 独立 的 启动 子 ,可 以 形成 独立 的 转录 单元 。 编 码 miRNA 的 基因 首先 在 细 
胞 核 内 经 由 RNA 聚 合 酶 工 转 录 产 生长 度 在 几 百 至 几 万 nt 的 初始 miRNA( primary RNA, pri- 
RNA )。 部 分 研究 也 发 现 一 些 miRNA 的 转录 与 RNA 聚 合 酶 亚 有 关 。pri-miRNA 被 一 种 称 为 微 
处 理 需 ( microprocessor ) 的 多 蛋白质 复合 物 剪 切 为 长 度 在 60~100nt 间 ,具有 发 夹 结 构 的 单 链 
前 体 miRNA( pre-miRNA )。 并 通过 转运 蛋白 Exportin-5 及 其 Ran-CTP 辅 因子 ,将 pre-miRNA 
转运 至 细胞 质 中 。 Exprotin-5 与 Ran-GTP 形 成 的 复合 物 对 pre-miRNA 具 有 高 亲和力 ,能 够 自 
miRNA 在 细胞 核 内 产生 开始 一 直到 被 第 二 次 裂解 的 过 程 中 ,对 进行 miRNA 保 护 。 在 细胞 质 
中 , pre-miRNA 经 过 Dicer 酶 加 工 ,形成 长 度 在 19~24nt 的 miRNA-miRNA* 双 链 。 随 后 ,细胞 中 
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的 TRBP 以 及 PACT 进 行 成 熟 miRNA 链 的 选择 ( miRNA* 链 被 特异 的 降解 掉 ), 并 募集 Argonaute 
(AGO ) 蛋白 与 Dicer 形 成 三 聚 体 复合 物 ,进而 启动 RNA 诱 导 的 沉默 复合 物 ( RNA-induced 
silencing complex, RISC ) 的 装配 。 在 哺乳 动物 中 , miRNA 通 过 引导 RISC 到 靶 mRNA 的 结合 位 
点 ,使 得 具有 内 切 酶 活性 的 AGO 蛋白 能 够 对 靶 向 的 mRNA 进行 降解 。 其 他 的 miRNA 能 够 与 其 
特定 靶 基 因 的 3”UTR 部 分 匹配 。 这 种 不 完全 的 碱 基 配 对 导致 对 mRNA 的 翻译 抑制 或 者 使 其 
脱 腺 苷 化 ,进而 导致 妓 mRNA 的 不 稳定 (图 10-1 )。 
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图 10-1 miRNA 的 生物 起 源 


成 熟 miRNA 主 要 通过 抑制 和 降解 两 种 方式 调节 靶 基 因 的 表达 。 两 种 方式 的 选择 取决 于 
miRNA 与 靶 mRNA 间 的 互补 程度 , 即 “ 种 子 区 域 ”( 通 常 指 miRNA 5' 端 2-8 的 核 苷 酸 序列 ) 与 
WImRNA 3' 端的 互补 性 。 如 果 两 者 完全 互补 则 miRNA 使 mRNA 降解 ,否则 对 mRNA 进行 翻译 
抑制 。 根 据 与 靶 基 因 的 结合 方式 不 同 , miRNA 大 致 分 为 三 类 : 第 一 类 以 线虫 中 的 Lin-4 为 代 
表 , 该 类 miRNA 与 靶 基 因 以 不 完全 互补 的 方式 结合 ,抑制 mRNA 的 翻译 但 不 影响 其 稳定 性 。 
目前 所 发 现 的 大 部 分 miRNA 属 于 此 类 ; 第 二 类 以 拟 南 芥 中 的 miR-171 为 代表 ,该 类 miRNA 与 
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MUSE AIDA SE 42 H EM) TRAE, LVEF SCRUUIRE S siRNAAE AE AU Ee BF PEE mRNA; 
第 三 类 以 Let-7 为 代表 ,该 类 miRNA 可 以 通过 以 上 两 种 结合 方式 作用 于 靶 基因 。 如 在 果 蝇 中 
的 Let-7 直 接 介 导 RISC 降 解 其 靶 mRNA ,而 在 线虫 中 的 Let-7 则 与 靶 mRNA 3” UTR 以 不 完全 
配对 的 方式 结合 ,进而 抑制 其 靶 mRNA 的 翻译 。 在 哺乳 动物 细胞 中 ,蛋白 质 组 实验 表明 单个 
miRNA 能 够 直接 抑制 上 百 种 蛋白 质 的 产生 。 而 且 , 这 些 蛋白 的 抑制 绝 大 多 数 是 由 于 mRNA 
表达 水 平 的 下 调 以 及 翻译 抑制 所 引起 的 。 然 而 ,这 种 经 由 miRNA 诱 导 的 抑制 作用 却 并 不 强 。 
有 趣 的 是 ,在 某 些 条 件 下 , miRNA 能 够 上 调 其 对 mRNA 的 翻译 ,或 者 甚至 能 够 直接 对 其 靶 基 
因 的 转录 进行 干预 。 目 前 ,对 于 这 种 罕见 的 调控 模式 所 知 甚 少 。 

大 量 的 研究 表明 miRNA 可 以 通过 精细 地 调节 基因 的 表达 进而 参与 细胞 的 发 育 、 分 化 以 
及 应 激 反 应 等 生物 学 过 程 。 随 着 对 miRNA 在 复杂 疾病 (尤其 是 癌症 ) 中 的 作用 的 深入 研究 ， 
研究 者 发 现 miRNA 能 够 参与 到 几乎 所 有 癌症 相关 的 生物 学 过 程 中 (如 凋 亡 增殖 、 细 胞 周期 、 
转移 )。miRNA 功 能 的 丢失 与 获得 与 癌症 的 发 生 密切 相关 。miRNA 通 过 不 同 的 机 制 引起 癌 
症 相关 生物 学 过 程 的 异常 : DmiRNA 位 点 的 缺失 、 扩 增 或 者 突变 ; DmiRNA 基 因 的 表 观 沉默 ; 
@ 结 合 到 miRNA 上 的 转录 因子 异常 。miRNA 作 为 一 类 新 的 生物 标记 ,已 被 应 用 于 疾病 的 诊 
断 以 及 预后 。 同 时 ,实验 证 据 表 明 利 用 miRNA 模 拟 或 者 抗 miRNA 能 够 作为 一 种 强 有 力 的 治 
疗 手段 ,用 于 干扰 对 癌症 发 生发 展 起 重要 作用 的 生物 通路 ,进而 达到 治疗 癌症 的 目的 。 


Z, miRNA RA > >. 


miRNA A HME A3” UTR DC AE Hp AT, ORE eoe EM BE, A 
VAmiRNAEHIBLIU CE DRE, BOTH BUSH ACE DEL EC DU mi RN A SEXE DATES 
实验 方法 ,许多 生物 信息 学 家 一 直 进 行 基于 计算 方法 预测 miRNA 靶 基因 的 工作 。 尽 管 大 量 
的 miRNA 靶 基因 预测 方法 已 发 表 , 但 是 其 假 阳 性 率 一 直 居 高 不 下 。 因 此 准确 地 预测 miRNA 
靶 基 因 和 正确 地 认识 miRNA 及 其 靶 基 因 的 作用 机 制 依旧 是 当前 miRNA 人 研究 的 热点 。 

在 植物 中 ,由 于 miRNA 与 靶 基 因 位 点 是 完全 匹配 的 ,根据 miRNA 与 mRNA 的 3”UTR 序 列 
配对 可 以 准确 地 预测 靶 基 因 。 但 是 ,在 动物 中 , miRNA 与 靶 基 因 的 不 完全 匹配 使 得 靶 基 因 预 
测 面临 很 大 的 挑战 。 最 初 的 方法 就 是 简单 的 基于 miRNA 与 基因 3”UTR 互 补 程度 进行 靶 基 
因 的 预测 。 但 是 生物 学 家 很 难 去 选择 预测 出 的 靶 基 因 ,而 且 , 不 同 的 方法 之 间 一 致 性 很 差 。 
随后 ,研究 者 们 进一步 使 用 更 加 复杂 的 模型 以 及 利用 更 多 的 生物 资源 对 miRNA 靶 基因 进行 预 
测 ( 如 miRNA 与 其 靶 位 点 的 互补 性 、miRNA 靶 位 点 的 保守 性 、 miRNA-mRNA 结 合 的 热 稳 定性 、 
miRNA 靶 位 点 处 不 应 有 复杂 二 级 结构 以 及 miRNA 5 端 与 靶 基 因 的 结合 能 力 应 强 于 3 端 )。 

目前 ,主要 的 生物 信息 学 算法 包括 miRanda TargetScan PicTar o 基于 序列 的 miRNA 靶 
基因 预测 算法 虽然 各 不 相同 ,但 通常 遵循 以 下 几 个 原则 : miRNA“ SEEDS E f£ ME; miRNA 
的 靶 点 通常 分 为 三 类 ,为 5” 端 主导 型 5” 端 种 子 主导 型 和 3” 端 互补 型 。“ 种 子 区 域 ” 是 指 
从 miRNA 序列 5” 端 第 2 个 核 苷 酸 起 向 3” 端 延伸 连续 7 个 核 车 酸 ( 2-8nt). 5' 端 主导 型 是 指 
miRNA 的 5” 端 和 3 ” 端 都 具有 较 好 的 碱 基 互补 配对 ; 5" 端 主 导 种 子 型 是 指 miRNA 的 3” 端 没 
有 发 生 较 好 的 碱 基 互 补 配对 ,但 miRNA 的 $” 端 至 少 有 连续 的 7 个 碱 基 与 nRNA 的 3”UTR 完 全 
互补 ; 3” 端 互补 型 是 指 miRNA 序 列 3” 端 多 个 碱 基 与 靶 基 因 发 生 互补 配对 ,但 种 子 区 域 匹配 
不 充分 。@) 靶 点 在 多 物种 间 的 序列 保守 性 。G@)miRNA 与 nRNA 形 成 双 链 结构 的 热力 学 稳定 
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性 。@ 苇 基因 二 级 结构 和 靶 点 外 的 序列 对 靶 基 因 预 测 的 影响 。 

miRanda: miRanda 是 2003 年 提出 的 一 个 miRNA 务 基因 预测 软件 。 它 依据 miRNA 与 mRNA 
序列 匹配 程度 、miRNA 与 nRNA 二 级 结构 热 稳定 性 以 及 靶 位 点 在 物种 间 的 保守 性 对 mRNA 的 
3' UTR 进 行 分 析 。miRanda 首 先 采 用 类 似 于 Smith-Waterman 的 算法 对 miRNA 和 mRNA 的 3” UTR 
序列 进行 碱 基 互 补 分 析 , 构 建 打分 矩阵 : 如 果 正 确 互补 配对 (如 G : CRIA : U ), 配 对 分 数 为 +5 ; 
错 配 罚 分 为 -3 ,起 始 空位 罚 分 为 -8 ,延伸 空位 罚 分 为 -2 ; 如 果 是 G : U 配 对 ,配对 分 数 为 +2。 为 
体现 miRNA AS? Hg AZ” 端 在 与 靶 基 因 结 合 过 程 中 作用 的 不 均一 性 ,5 端的 前 11 个 碱 基 的 互 
补 分 值 需 乘 以 一 个 尺度 参数 。 碱 基 互 补 遵循 4 个 规则 : miRNA 第 2~4 位 碱 基 必 须 和 和 靶 基 因 完 全 
匹配 ; 第 3~12 位 碱 基 和 和 靶 基 因 错 配 数 目 不 得 多 于 5 个 ; 第 9 至 倒数 第 6 位 碱 基 至 少 有 一 个 错 配 ; 
miRNA 的 最 后 5 个 碱 基 错 配 不 能 多 于 2 个 。 其 次 ,在 miRNA 与 靶 基 因 形 成 二 聚 体 的 热力 学 稳定 
性 方面 , miRanda 利 用 Vienna 软 件 包 中 的 RNAlib( RNAsecondary structure programming library ) 计 
算 miRNA 与 mRNA 3” UTR 结 合 的 自由 能 。 最 后 ,在 物种 间 保 守 性 方面 , miRanda 要 求 靶 点 在 多 
物种 间 保 守 , 即 靶 点 在 多 物种 3”UTR 序 列 比 对 中 相同 位 置 具有 相同 的 碱 基 。 

TargetScan: TargetScan 是 由 Lewis 等 人 开发 ,基于 热力 学 的 miRNA- 计 基因 二 级 结构 特征 
和 保守 性 分 析 , 预测 哺乳 动物 物种 间 保 守 的 miRNA 靶 基因 的 算法 。TargetScan 要 求 “ 种 子 匹 
配 ", 即 miRNA 的 第 2 到 第 8 位 核 苷 酸 种 子 序列 和 mRNA 的 3”UTR 完 全 互补 ,从 种 子 序 列 向 两 
端 延 伸 ,允许 G : U 配 对 ,直至 遇 到 错 配 停止 。 同 时 ,利用 RNAfold 算 法 优化 剩余 miRNA 3" 端 
区 域 与 mnRNA 的 匹配 。 在 热力 学 方面 ,利用 RNAeval 计 算 miRNA- 靶 基因 二 级 结构 的 自由 能 。 
最 终 ,对 每 一 个 UTR 计 算 一 个 分 值 , 并 按照 UTR 分 值 进行 排序 。 该 算法 首次 引入 信 噪 比 来 评 
价 靶 基因 预测 结果 。 该 算法 要 求 靶 向 的 UTR 至 少 在 两 个 物种 中 保守 。TargetScan 算 法 发 现 ， 
随 着 物种 数目 的 增多 ,预测 的 靶 基 因数 目 逐 渐 减 少 , 但 预测 结果 的 准确 率 得 到 提高 。2005 年 ， 
同一 组 研究 人 员 在 TargetScan 中 添加 了 更 多 的 物种 ,改进 的 算法 称 为 TargetScanS š 与 TargetScan 
相 比 , TargetScanS 在 人 .小 鼠 、 大 鼠 三 个 物种 的 基础 上 增加 了 狗 和 鸡 的 数据 ,并 重新 定义 了 种 子 
序列 (第 2 到 第 7 位 核 昔 酸 ), 要 求 种 子 序列 完全 互补 的 情况 下 , miRNA 第 8 位 碱 基 和 靶 基 因 互 补 
或 者 miRNA 5' 端 第 1 位 碱 基 是 A。TargetScan 研 究 人 员 随 后 发 现 种 子 区 域 的 匹配 并 不 一 定 会 引 
起 其 靶 基 因 的 抑制 。 通 过 计算 和 实验 的 方法 ,他 们 进一步 的 确定 了 结合 位 点 上 下 文 相 关 的 5 
个 特征 : 中 靠近 结合 位 点 处 富 含 AU; @) 与 共 表 达 miRNA 的 结合 位 点 邻近 ; @) 与 miRNA 第 13~16 
个 核 昔 酸 匹配 的 残 基 邻 近 ; @ 至 少 远离 3”UTR 终 止 密码 子 15nt; @ 远 离 长 的 UTR 的 中 心 。 这 些 
特征 能 够 有 效 的 反映 miRNA 对 其 靶 基 因 的 抑制 作用 。 研 究 人 员 通 过 上 述 特征 进一步 改善 了 
TargetScan ,并 引入 “Context Score ”用 于 量化 预测 结合 位 点 的 性 能 。 

PicTar: PicTar 开 发 于 2005 年 ,是 第 一 个 结合 机 器 学 习 对 miRNA 靶 基因 进行 预测 的 方法 。 
该 算法 兼顾 了 丢 基 因 预 测算 法 的 基本 思想 ,同时 引入 了 机 器 学 习 方 法 提取 特征 参数 ,从 统计 
的 角度 反映 miRNA 得 基因 相互 作用 的 显著 性 。PicTat 算 法 的 前 提 假 设 是 miRNA 的 不 同 组 
合 在 不 同 细 胞 系 中 可 能 协同 地 调控 细胞 特异 基因 的 表达 。PicTar 以 多 重 序列 比 对 的 3”UTR 
和 共 表 达 的 成 熟 miRNA 作 为 输入 ,用 nuclMAP 预 测 UTR 序 列 上 所 有 可 能 的 miRNA 靶 位 点 , 检 
测 其 miRNA 和 靶 基 因 二 聚 体 是 否 符合 结合 能 标准 ,然后 过 滤 掉 没有 足够 靶 位 点 的 3”UTR ,并 
利用 隐 马 尔 科 夫 模型 最 大 似 然 法 对 每 个 UTR 打 分 ,最 后 进行 排序 。PicTar 在 miRNA 与 靶 基 因 
序列 匹配 时 ,把 种 子 序列 分 为 “完全 匹配 的 种 子 序列 ”和 “不 完全 匹配 的 种 子 序列 ” ,后 者 在 
满足 结合 能 标准 前 提 下 人 允许 种 子 序列 出 现 错 配 ,但 不 允许 CG-U 配 对 。 同 年 提出 的 TargetBoost 
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算法 ,是 把 遗传 算法 应 用 到 靶 基 因 预 测 中 。 从 miRNA 及 其 靶 基因 相互 作用 特征 提炼 出 加 权 
的 模 序 作为 输入 参数 ,对 于 不 同 的 miRNA 进 行 分 类 ,然后 返回 不 同 miRNA 和 靶 基 因 相 互 作用 
的 概率 作为 靶 基 因 的 得 分 。 该 算法 不 依赖 于 靶 基 因 物 种 间 的 保守 性 ,上 且 通过 提高 特征 参数 
的 质量 就 可 大 幅 提高 预测 准确 率 。2006 年 , miTarget 把 支持 向 量 机 算法 融入 到 靶 基 因 预 测 
中 。 算 法 用 径 向 基 核 函数 作为 相似 指标 ,把 支持 向 量 机 特征 分 为 三 类 ( miRNA 和 部 基 因 二 级 
结构 特征 、 热 力学 特征 及 miRNA 和 和 靶 基因 相互 作用 的 碱 基 位 置 特征 ), 接 着 评估 特征 参数 ,最 
后 对 预测 的 对 基因 进行 打分 。 

GenMiR++: miRNA 在 转录 后 调控 水 平 起 了 很 大 的 作用 ,与 其 靶 序 列 进行 匹配 ,抑制 
mRNA 翻译 起 始 或 降解 mRNA。 因 此 , miRNA 对 基因 mRNA 水 平 的 调控 具有 很 大 的 贡献 。 
结合 miRNA 和 mRNA 表达 谱 为 预测 miRNA 靶 基因 提供 了 新 的 思路 。 由 于 miRNA 下 调 其 部 
mRNA 表达 水 平 , miRNA 和 它 的 靶 点 在 表达 谱 上 呈 逆 向 关系 。2007 年 , Huang 等 人 检测 88 
个 组 织 的 miRNA 和 mRNA 表达 数据 ,并 基于 这 种 逆向 关系 ,利用 miRNA-mRNA 表 达 谱 构建 
miRNA- 靶 基因 调控 网 络 ,开发 了 基于 贝 叶 斯 方法 的 靶 基 因 预 测算 法 GenMiR++。 他 们 发 现 
了 104 个 人 类 miRNA 的 高 精度 的 靶 基 因 , 并 通过 实验 证 实 了 预测 的 let-7b 靶 基因 。 人 研究 结 果 
表明 ,与 基于 序列 的 方法 相 比 ,利用 相同 样本 中 同时 检测 miRNA 和 mRNA 的 表达 谱 可 以 更 准 
WHY FHL MIRNA BEE A 

在 当前 的 miRNA 靶 基因 预测 研究 中 ,人 研究 人 员 逐 渐 认识 到 许多 新 的 miRNA- 靶 基因 结合 
特征 。 例 如 ;研究 发 现 , miRNA 与 靶 基 因 结 合 的 过 程 中 , mRNA 的 3”UTR 二 级 结构 起 着 重要 
作用 miRNA 靶 点 几乎 都 落 入 3”UTR 的 二 级 结构 不 稳定 区 域内 ,然而 提高 靶 点 附近 序列 
二 级 结构 的 稳定 性 能 够 大 大 降低 miRNA 对 靶 基 因 的 作用 。 已 有 实验 表明 , 靶 点 外 的 序列 也 
对 miRNA 调 节 靶 基因 起 到 重要 作用 。 靶 点 后 的 一 段 序列 对 miRNA 与 靶 基 因 的 识别 起 着 重要 
的 作用 ,对 该 段 序 列 突变 后 miRNA 对 靶 基 因 的 调控 作用 明显 减弱 ,而 将 该 段 序列 完全 删除 后 
miRNA 对 靶 基因 的 调控 作用 完全 消失 。 这 些 新 颖 的 特征 也 被 逐渐 加 入 到 miRNA 靶 预测 算法 
中 ,进一步 提高 算法 的 精确 性 。 同 时 ,研究 人 员 也 逐渐 意识 到 ,单一 依靠 序列 信息 或 者 表达 
信息 难以 继续 提高 miRNA 靶 基因 预测 效能 。 因 此 ,整合 不 同 层面 的 数据 信息 (如 功能 信息 、 
蛋白 质 互 作 信息 .表达 信息 序列 信息 等 ) 以 及 目前 实验 已 证 实 的 miRNA 靶 基因 资源 能 够 进 
一 步 提高 miRNA 靶 基因 预测 的 精确 性 。 此 外 ,最 近 出 现 的 基于 深度 测序 的 miRNA 靶 基因 检 
测 方法 也 为 miRNA 靶 预测 带 来 了 新 的 希望 。 这 些 人 研究 将 对 揭示 miRNA 功 能 .了 解 miRNA 诱 
导 疾 病 发 生 的 机 制 以 及 将 miRNA 用 于 癌症 治疗 等 关键 问题 起 到 重要 作用 。 











三 .miRNA 数 据 资源 》》 


(一 ) miRBase 


miRBase 是 一 个 主要 用 于 存储 miRNA 序 列 及 其 相关 注释 信息 的 在 线 数 据 库 ( 网 
Hk: http: //www.mirbase.org/ )。 当 前 的 miRBase 版 本 ( miRBase 18 ) 包含 超过 18000 个 发 夹 pre- 
miRNA, 代 表 了 来 自 168 个 物种 的 21 000 个 成 熟 miRNA。 它 是 一 个 集 miRNA 序 列 .注释 信息 
以 及 预测 的 靶 基 因数 据 为 一 体 的 数据 库 , 是 目前 存储 miRNA 信 息 最 主要 的 公共 数据 库 之 一 。 
该 数据 库 主 要 包括 三 部 分 内 容 , 即 miRBase Registry, miRBase Sequence 以 及 miRBase Targets, 
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其 主要 目的 : 四 保持 所 有 miRNA 的 命名 规则 一 致 ,并 且 为 新 发 现 的 miRNA 进 行 命名 ; @) 存 储 
所 有 已 发 现 的 miRNA 序 列 ,提供 便捷 的 网 上 搜索 服务 以 及 所 有 miRNA 数 据 的 批量 下 载 ; OEE 
供 miRNA 相 关 的 注释 信息 (如 功能 数据 基因组 定位 .相关 参考 文献 ); 由 为 用 户 提供 来 自 不 
同 靶 预测 算法 的 靶 标 信息 的 外 部 链接 。 

图 10-2 所 示 为 miRBase 的 主 界面 。 主 界面 包含 四 部 分 : DmiRBase 数 据 库 的 更 新 信息 ， 
用 户 可 以 很 方便 地 知道 miRBase 的 下 个 版 本 的 发 布 日 期 ; BCmiRBase 的 版 本 号 (点 击 其 版 本 
号 可 以 看 到 其 当前 版 本 的 整体 数据 统计 ,及 其 与 前 一 版 本 的 差异 )\ 便 捷 的 搜索 栏 .批量 下 载 
的 入 口 ; (miRBase 数 据 库 所 提供 的 基本 信息 描述 ; (DmiRBase 数 据 库 的 相关 参考 文献 。 通 
过 在 搜索 栏 中 输入 特定 miRNA 的 名 字 , 点 击 “GO” 则 可 以 迅速 查询 到 该 miRNA 相 关 的 基本 
信息 。 该 信息 页 面 提 供 了 大 量 关 于 该 miRNA 的 基本 信息 ,包括 : 名 字 、 葵 环 结构 ,深度 测序 相 
关 信 息 、 基 因 组 定位 信息 、 同 簇 miRNA 及 其 外 部 数据 的 相关 链接 。 同 时 ,该 页 面 还 包含 了 该 
pre-miRNA 所 产生 的 成 熟 miRNA 信 息 ,包括 成 熟 miRNA 名 字 、 序 列 及 其 相关 预测 的 靶 基 因 。 
最 后 ,该 页 面 提供 了 与 该 pre-miRNA 相 关 的 所 有 参考 文献 。 














图 10-2 miRBase 数 据 库 主 界面 
以 hsa-let-7a-1 为 例 ,图 10-3 显 示 该 pre-miRNA 所 有 信息 。 


deme ), Movias Z. Yong M, Quern A retos G 
ek TINI LIN CNOT. 





图 10-3 miRBase 数 据 库 查询 结果 解析 图 
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(DmiRNA 在 miRBase 数 据 库 中 的 名 字 为 hsa-let-7a-1 ; @hsa-let-7a-1 H) 3& 9$ £& 44; 
@ HK A494 SE Js; 148489604 reads, 点 击 可 以 查询 在 49 个 实验 中 与 该 pre-miRNA 相 关 的 
read 数 目的 具体 统计 信息 ; DHsa-let-7a-1 位 于 9 号 染色 体 的 正 链 , 具 体 区 间 为 96938239- 
96938318 ; @@ 与 hsa-let-7a-1 同 一 艇 的 其 他 miRNA 及 它们 的 基因 组 定位 信息 ; @ 外 部 数据 
库 的 相关 链接 (如 Rfam 数 据 库 ); (Dhsa-let-7a-1 属 于 let-7a 家 族 ; (@@hsa-let-7a-1 的 成 熟 
miRNA( hsa-let-7a-5p 以 及 hsa-let-7a-3p ); (hsa-let-7a-5p 以 及 hsa-let-7a-3p 的 序列 分 别 
为 ugagguaguagguuguauaguu 和 cuauacaaucuacugucuuuc; (0 不 同 靶 预测 算法 预测 的 靶 基 因 ( 如 
MICROCOSM, MIRNA.ORG , TARGETSCAN , PICTAR ); 四 与 该 miRNA 相 关 的 参考 文献 。 


(=) miRNA 靶 基因 数据 库 


目前 ,研究 人 员 开 发 了 大 量 的 miRNA 靶 基因 数据 库 , 包 括 被 实验 验证 的 靶 基 因数 据 库 ， 
基于 某 种 预测 算法 得 到 的 靶 基 因数 据 库 以 及 整合 多 种 预测 算法 结果 的 数据 库 ( 表 10-1 )。 


310-1 miRNA HGE E 








TarBase 实验 证 实 http: //diana.cslab.ece.ntua.gr/tarbase/ 

miRTarBase 实验 证 实 http: //miRTarBase.mbc.nctu.edu.tw/ 

TargetScan 严格 种 子 匹 配 ; 位 点 上 下 文 ; 保守 (或 者 非 保守 ) http: //targetscan.org 

PicTar 严格 种 子 匹 配 http: //pictar.mde-berlin.de 

Basan miRanda 算 法 nd //www.ebi.ac.uk/enright-srv/ 
microcosm/htdocs/targets/v5/ 

MiRNA.org miRanda 算 法 http: //www.miRNA.org 


DIANA-mieroT — DIANA-microT 3.0 算法 ; 严格 序列 匹配 ; 保守 型 ” www.miRNA.gr/microT-v4. 


TargetMiner miRNA-mRNA 表 达 谱 ; SVM; 组 织 特异 性 www.isical.ac.in/~bioinfo_miu 
RepTar is RSS ATT RD i epadan 

miRror 整合 多 种 靶 数 据 ; 集中 于 miRNA 协 同 http: //www.proto.cs.huji.ac.il/mirror 
ExprTargetDB ”整合 多 种 靶 数 据 ; miRNA-mRNA 表 达 谱 http: //www.scandb.org/apps/mi RNA/ 
MirZ EIMMo 算法 ; 贝 叶 斯 模型 http: //www.mirz.unibas.ch 

miRTar 整合 多 种 靶 数据 http: //miRTar.mbe.nctu.edu.tw/ 


TargetScan 是 一 个 常用 的 靶 基 因 预 测 数据 库 。 相 关 研 究 人 员 不 断 改进 TargetScan 算 
法 ,并 及 时 更 新 该 数据 库 。TargetScan 包 含 四 个 部 分 : TargetScanHuman 、TargetScanMouse、 
TargetScanWorm 以 及 TargetScanFly。 从 TargetScanHuman 的 主 界面 的 右上 角 可 以 点 击 进 入 其 
他 三 个 部 分 。 用 户 可 以 通过 选择 物种 、 基 因 名 称 、miRNA 名 称 或 者 miRNA 家 族 对 miRNA 与 
靶 基 因 的 对 应 关系 进行 查询 。 例 如 ,搜索 hsa-let-7a 的 靶 基 因 , 只 需 在 “Enter a miRNA name 
C e.g. mmu-miR-1”)” 处 输入 该 miRNA 的 名 字 , 即 可 得 到 相应 的 靶 基 因 。TargetScan 搜 索 结 果 
提供 了 丰富 的 信息 ,包含 不 同 结合 位 点 的 不 同 种 子 匹配 类 型 结合 位 点 的 保守 型 与 “context 
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score" 等。 这些 信息 能 够 从 不 同 的 角度 反映 该 靶 基 因 预 测 结果 的 准确 性 。 需 要 注意 的 是 ， 
该 结果 只 提供 了 具有 保守 靶 位 点 的 靶 基 因 。TargetScan 也 提供 了 不 考虑 靶 位 点 保守 性 的 靶 
基因 集合 。 通 过 点 击 “| View top predicted targets, irrespective of site conservation 了 , 即 可 看 到 
大 量 的 不 考虑 靶 点 保守 性 的 靶 基 因 和 集合 。 此 外 ,TargetScan 提 供 所 有 数据 的 批量 下 载 。 
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Section 2 miRNA Transcriptome 


一 .miRNA 表 达 谱 识别 癌症 相关 miRNA > > 


miRNA 作 为 一 类 重要 的 基因 调控 因子 ,通过 与 靶 基 因 3”UTR 结 合 , 广 泛 参 与 各 种 生物 学 
过 程 ,因此 检测 疾病 发 展 过 程 中 不 同时 期 或 不 同 状 态 下 miRNA 的 表达 并 识别 异常 的 miRNA 
对 疾病 诊断 或 预后 有 很 大 的 帮助 。 近 年 来 ,很 多 癌症 研究 表明 miRNA 表 达 谱 能 够 有 效 地 分 
类 癌症 ,并 且 miRNA 表 达 变 化 与 癌症 的 发 生 发展 及 转移 密切 相关 。 因 此 ,基于 miRNA 表 达 
谱 来 挖掘 人 类 疾病 相关 的 miRNA 是 现在 癌症 研究 重点 之 一 。 


(一 ) miRNA 表 达 谱 种 类 


人 们 发 现 miRNA 在 癌症 发 生发 展 过 程 中 起 着 重要 作用 ,检测 并 分 析 miRNA 表 达 谱 成 为 
研究 miRNA 功 能 的 一 个 重要 的 部 分 。 随 着 对 miRNA 序 列 结构 了 解 的 深入 , 越 来 越 多 的 技术 
被 用 于 检测 miRNA 的 表达 。 除 了 传统 的 芯片 检测 技术 之 外 ,许多 新 的 miRNA 表 达 检 测 技术 
应 运 而 生 。 有 目前 应 用 于 检测 miRNA 表 达 水 平 的 其 他 生物 学 方法 还 包括 克隆 、Northern 印 迹 、 
定量 实时 PCR( quantitative real time polymerase chain reaction, qRT-PCR )、 原 位 杂交 (in situ 
hybridization, ISH ) 和 新 一 代 高 通 量 测序 技术 ( next-generation sequencing, NGS ) 等 。 这 些 
方法 已 经 成 功 应 用 于 检测 miRNA 的 表达 研究。 根据 实验 检测 技术 ,常用 的 miRNA 表 达 谱 可 
以 分 为 定量 实时 PCR( qRT-PCR ) miRNA 表 达 谱 、 忌 片 杂 交 产 生 的 miRNA 表 达 谱 和 新 一 代 
高 通 量 检测 的 miRNA 表 达 谱 。 检 测 miRNA 表 达 谱 平台 主要 包括 Agilent、 Exiqon、 Illumina, 
Ampbion、Combimatrix、Invitrogen 等 。 基 于 以 上 方法 和 平台 检测 的 miRNA 表 达 谱 数据 已 经 陆 
续 被 提交 到 GEO 或 ArrayExpress 等 公共 数据 库 中 。 大 量 利用 miRNA 表 达 谱 的 研究 已 经 完成 
并 被 陆续 发 表 。 这 些 研 究 涉 及 疾病 诊断 、 预 后 及 疾病 发 生发 展 相 关 的 miRNA 标 记 等 方面 ,其 
中 癌症 相关 的 miRNA 表 达 研 究 占 各 种 疾病 研究 的 主要 部 分 。 已 有 大 量 癌症 miRNA 标 记 被 证 
实在 癌症 发 生 发 展 或 转移 过 程 中 起 到 重要 作用 。 随 着 mRNA 表达 谱 检测 技术 的 不 断 成 熟 ， 
日 益 累 积 的 miRNA 表 达 谱 数据 为 今后 进一步 研究 癌症 致 病 机 制 提 供 了 重要 数据 来 源 。 


(=) miRNA 表 达 谱 检测 技术 的 差异 


尽管 利用 DNA 芯 片 技术 来 检测 miRNA 的 表达 越 来 越 受 欢迎 ,但 是 这 些 技术 准确 性 并 没 
有 被 充分 地 证 实 。 早 期 研究 表明 ,不同 芯片 技术 检测 同样 本 mRNA 基因 表达 的 可 重复 率 较 
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低 , 相 关 性 较 差 。 这 种 不 一 致 性 部 分 可 能 是 由 早期 平台 的 不 完整 或 不 正确 的 注释 ,技术 之 间 
探 针 的 不 正确 匹配 或 数据 标准 化 的 差异 性 导致 的 。 随 着 技术 的 发 展 ,更 精确 的 注释 平台 、 更 
合理 的 探 针 匹配 以 及 进一步 优化 的 数学 模型 和 过 滤 技 术 使 得 芯片 检测 技术 内 部 或 技术 之 间 
有 了 相对 高 的 一 致 性 。 

检测 基因 表达 的 技术 虽然 可 以 用 来 检测 miRNA 的 表达 ,但 是 也 面临 着 很 大 的 挑战 。 就 
芯片 技术 而 言 , miRNA 序 列 长 度 较 短 直接 限制 了 探 针 的 设计 ,可 能 整个 miRNA 被 看 做 一 个 
探 针 。 同 时 ,由 于 miRNA 家 族 的 存在 ,家 族 成 员 之 间 序 列 相似 性 很 高 ,导致 设计 的 探 针 呈现 
元 余 性 ,不 能 够 很 好 检测 不 同 成 员 之 间 差 异 的 表达 模式 。 由 于 新 的 miRNA 序 列 长 度 较 短 且 
不 同 平台 间 的 探 针 设计 和 实验 协议 有 着 显著 的 不 同 , 研 究 不 同 技术 平台 检测 miRNA 表 达 的 
一 致 性 是 非常 有 必要 的 。 目 前 ,将 TaqMan PCR 实 验 检测 的 miRNA 表 达 谱 做 为 金 标准 ,通过 
与 TaqMan PCR 实验 检测 的 miRNA 表 达 谱 相 比 较 来 分 析 四 个 miRNA 芯 片 技术 之 间 的 准确 性 
和 可 重复 性 。 在 本 文中 ,应 用 两 个 商业 常用 的 小 鼠 参考 RNA 来 创建 两 个 参考 样本 池 , 这 两 
个 参考 样本 池 可 以 保证 样本 间 miRNA 丰 度 的 最 大 差异 。 参 考 RNA 样 本 池 1 来 自 小 鼠 胚胎 内 
丸 . 卵 梨 和 胚胎 ,参考 RNA 样 本 池 2? 来 自 小 鼠 胚 胎 肝 ,心肺 三 个 组 织 。 把 这 两 参考 RNA 池 分 
成 四 等 份 ,分 别 利用 4 个 全 基因 组 范围 内 芯片 技术 ( Agilent, Exiqon, Invitrogen NCode and LC 
Sciences ) 进行 杂交 产生 miRNA 表 达 谱 。 利 用 不 同 芯 片 技 术 检 测 miRNA 表 达 谱 ,对 技术 内 和 
技术 间 进 行 比较 ,同时 和 同样 本 TaqMan PCR. 实验 检测 miRNA 表 达 谱 进行 比较 。 利 用 斯 皮 
尔 曼 相关 系数 作为 衡量 准确 性 和 重复 性 的 指标 。 通 过 与 背景 信号 相 比 ,54 个 miRNA 表 达 同 
时 被 所 有 的 平台 检测 到 。 平 台 内 miRNA 表 达 谱 的 重复 性 很 高 ,斯 皮尔 曼 相关 系数 大 于 0.9。 
不 同 平台 检测 的 miRNA 表 达 谱 之 间 仍 然 有 很 高 的 相关 系数 (变化 范围 0.663~0.949 )。 同 时 ， 
与 TaqMan PCR 实验 检测 的 miRNA 表 达 谱 比较 ,这 些 芯 片 技术 检测 的 表达 谱 和 TaqMan PCR 
实验 检测 的 miRNA 表 达 谱 具有 很 高 的 斯 皮尔 曼 相 关系 数 和 一 致 相关 系数 。 这 些 结果 显示 
miRNA 芯 片 平 台 可 以 产生 高 度 重 复数 据 并 且 适 用 于 研究 miRNA 的 差异 表达 。 








二 .miRNA 表 达 谱 分 类 人 类 癌症 >> 


(一 ) 利用 表达 谱 数据 识别 癌症 相关 miRNA 


挖掘 疾病 相关 的 miRNA 已 经 成 为 现今 非 编 码 RNA 研 究 领 域内 重点 目标 之 一 。 大 量 研究 
发 现 miRNA 在 复杂 疾病 发 生 过 程 中 起 着 非常 重要 的 作用 ,很 多 miRNA 芯 片 技术 应 运 而 生 ,并 
应 用 于 识别 复杂 疾病 特别 是 癌症 相关 miRNA。 利 用 miRNA 表 达 谱 数据 识别 癌症 相关 miRNA 
一 般 分 为 三 个 步 又。 第 一 步 ,表达 数据 获取 , 即 从 公共 表达 数据 库 ( GEO , ArrayExpress^$ ) 中 
查询 并 下 载 带 有 癌症 与 正常 样本 的 miRNA 表 达 数 据 。 第 二 步 , 表 达 数 据 预 处 理 , 即 对 所 获取 
的 miRNA 表 达 谱 数据 进行 标准 化 以 便于 后 续 分 析 。 然 而 目前 miRNA 表 达 谱 数据 预 处 理 面临 
的 重要 问题 是 缺乏 统一 的 标准 化 方法 。 随 着 各 种 miRNA 表 达 检 测 技术 的 发 展 尤其 是 高 通 量 
检测 技术 的 发 展 ,以 往 mRNA 表 达 谱 数据 的 标准 化 的 方法 无 法 有 效 地 移植 到 miRNA 表 达 谱 
数据 应 用 中 。 第 三 步 ,识别 癌症 相关 miRNA, 即 利用 miRNA 表 达 谱 寻找 癌症 发 生发 展 或 转 
移 过 程 中 异常 表达 (包括 上 调和 下 调 ) 的 miRNA。 和 寻找 异常 表达 miRNA 过 程 中 经 常 利用 到 
的 生物 统计 学 方法 有 Fold change, 检验、SAM、ANOVA 等 。 通 过 统计 学 筛选 ,寻找 出 癌症 样 
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本 和 正常 样本 中 差异 表达 的 miRNA ,将 这 些 miRNA 作 为 与 该 种 癌症 发 生 密切 相关 的 miRNA。 
然后 在 进一步 实验 中 ,通过 对 这 些 异 常 miRNA 进 行 敲 除 或 者 过 表达 ,对 差异 表达 结果 进行 生 
物 学 证 实 , 从 而 确定 真实 癌症 相关 的 miRNA。 


(=) 利用 miRNA 表 达 谱 数据 分 类 人 类 癌症 


过 去 的 20 年 里 ,在 分 子 水 平 上 的 癌症 分 型 研究 已 经 获得 巨大 成 功 并 被 广泛 应 用 于 识别 
癌症 相关 的 生物 学 标记 ( biomark )。 这 些 研 究 表 明 利 用 编码 蛋白 的 转录 本 ( mRNA ) 可 以 有 
效 地 区 分 各 种 癌症 或 癌症 的 不 同 亚 型 ,因此 这 些 与 癌症 相关 的 转录 本 可 以 作为 可 靠 的 生物 
学 标记 用 于 癌症 致 病 机 制 的 研究 。 近 几 年 来 , 随 着 生物 学 界 对 非 编 码 RNA 人 研究 力度 的 加 大 ， 
各 种 非 编 码 小 RNA 实 验 检测 技术 得 到 快速 发 展 , 越 来 越 多 小 的 非 编 码 RNA 被 发 现 。 这 些 非 
编码 RNA 相 应 的 功能 也 得 到 研究 和 证 实 。 值 得 注意 的 是 , 占 这 些 非 编码 小 RNA 研 究 中 比例 
最 大 的 是 对 miRNA 的 研究 ,大量 研究 已 经 证 明 miRNA 的 表达 异常 通常 与 癌症 的 发 生 .发 展 或 
转移 有 密切 关系 。 因 此 ,很 多 研究 已 经 开始 利用 miRNA 表 达 谱 数据 对 癌症 进行 分 类 ,并 且 将 
miRNA 作 为 一 种 新 的 生物 学 分 子 标 记 用 来 判断 癌症 发 生 ,发 展 或 者 预后 。 

2005 年 的 Nature 期 刊 中 , Lu 等 人 成 功 地 利用 磁 珠 流 式 细胞 术 检 测 技术 系统 检测 到 了 涉 
及 多 种 癌症 的 334 个 样本 ,其 中 包含 了 217 个 人 类 miRNA 的 表达 水 平 。Lu 等 人 发 现 miRNA 表 
达 谱 中 含有 大 量 能 够 准确 反映 发 育 谱系 和 肿瘤 的 分 化 状态 的 信息 ,他 们 观察 到 与 正常 样 
本 的 表达 水 平 相 比 miRNA 在 肿瘤 样本 中 的 表达 普遍 下 调 。 在 研究 中 , Lu 等 人 首次 全 面 证 
实 了 利用 miRNA 对 癌症 分 类 具有 有 效 性 及 可 行 性 。 随 后 ,大 量 的 miRNA 表 达 谱 研究 证 实 了 
miRNA 作 为 生物 学 分 子 标记 的 可 靠 性 。 在 本 小 节 中 ,我 们 将 探索 如 何 利用 miRNA 表 达 数 据 
对 癌症 进行 分 类 。Lu 等 人 检测 的 334 个 样本 中 包括 多 种 人 类 组 织 , 包 括 乳 腺 、 前 列 腺 、 胃 、 结 
肠 和 肺 等 ,其 中 某 些 组 织 样本 取 自 癌症 患者 ,例如 肺癌 、 乳 腺 癌 、 白 血 病 等 患者 。 从 GEO 中 获 
取 334 个 样本 的 原始 miRNA 表 达 数 据 并 进行 预 处 理 。 预 处 理 过 程 中 ,基于 两 套 miRNA 探 针 
集 所 包含 的 控制 探 针 对 所 有 miRNA 探 针 检 测 值 进行 标准 化 ,对 表达 强度 偏 低 的 探 针 进行 修 
正 。 之 后 ,删除 探 针 集中 所 有 控制 探 针 , 并 对 miRNA 探 针 集 检测 到 的 表达 值 进行 以 2 为 底 的 
对 数 转 换 。 基 于 miRNA 表 达 谱 ,利用 层次 聚 类 方法 对 218 个 样本 进行 聚 类 分 析 。 从 聚 类 图 中 
可 以 看 出 几乎 所 有 的 miRNA 表 达 值 在 不 同 的 癌症 类 型 中 都 具有 差异 。 聚 类 图 显示 具有 共同 
组 织 发 育 起 源 的 样本 都 被 聚 到 一 起 。 例 如 ,来 自 结 肝 A .胰腺 以 及 胃 部 的 样本 被 很 好 聚 在 
一 起 ,这 些 不 同 的 组 织 样本 共同 起 源 于 胚胎 的 内 胚层 ; 起 源 于 上 皮 组 织 或 胃 肠 道 组织 的 样 
本 全 部 被 聚 到 一 起 形成 一 个 聚 类 分 支 ; 而 造血 相关 的 恶性 肿瘤 样本 明显 地 分 布 于 另 一 主要 
分 支 上 。 聚 类 结果 表明 miRNA 表 达 谱 能 够 很 好 区 分 不 同 组 织 起 源 的 样本 。 为 了 进一步 证 实 
miRNA 表 达 谱 能 应 用 于 癌症 诊断 ,研究 人 员 选 取 了 68 个 高 分 化 的 癌症 样本 (代表 11 种 不 同 的 
组 织 类 型 ), 利 用 概率 神经 网 络 算法 对 这 些 样 本 的 miRNA 表 达 谱 数据 分 别 进行 训练 并 产生 相 
应 的 多 类 别 的 分 类 器 。 然 后 ,利用 训练 产生 的 分 类 器 对 17 个 低 分 化 的 肿瘤 样本 的 组 织 类 型 
进行 预测 。 基 于 miRNA 表 达 值 进行 训练 的 分 类 器 正确 分 类 了 17 个 低 分 化 肿瘤 样本 中 的 12 个 
样本 。Lu 等 人 的 数据 中 还 包括 了 来 自 218 个 样本 中 的 89 个 组 织 的 mRNA 表 达 谱 数据 。 利 用 
这 些 mRNA 表 达 谱 数据 (大 约 包含 16 000 个 mRNA ) 对 同样 的 样本 进行 聚 类 时 ,发 现 具有 相同 
组 织 起 源 的 样本 并 没有 被 聚 到 一 起 。 同 时 ,利用 mRNA 基 于 68 个 高 分 化 的 癌症 样本 构建 表 
达 谱 构建 神经 网 络 分 类 器 ,并 对 17 个 低 分 化 肿瘤 样本 进行 检测 ,结果 表明 只 能 正确 分 类 其 中 
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的 一 个 样本 。 该 数据 还 包含 来 自 73 个 急性 淋巴 细胞 白血病 患者 的 骨髓 样本 的 miRNA 表 达 水 
平 。 经 过 层次 聚 类 ,一 个 主要 分 支 包 含 所 有 5 个 BCR/ABL 阳 性 样本 以 及 11 个 TEL/AML1 样 本 
中 的 10 个 样本 ; 另 一 个 主要 分 支 包 含 了 19 个 急性 T 细 胞 淋巴 细胞 白血病 样本 中 的 13 个 样本 。 
聚 类 结果 说 明 即 使 对 于 同一 组 织 起 源 的 样本 ,利用 miRNA 表 达 数 据 进行 聚 类 仍旧 能 够 得 到 
疾病 的 不 同 亚 型 并 识别 不 同 亚 型 中 miRNA 表 达 模 式 。 

由 于 miRNA 在 癌症 分 类 中 具有 的 重要 作用 , 越 来 越 多 的 研究 利用 miRNA 表 达 谱 研究 同 
种 疾病 的 不 同 亚 型 。Cherie Blenkiron 等 利用 miRNA 表 达 谱 分 析 乳 腺 癌 并 识别 肿瘤 亚 型 生物 
标记 分 子 。 该 研究 分 析 了 包含 93 个 原 发 乳腺 癌 、33 个 乳腺 癌 细 胞 系 和 5 个 正常 乳腺 样本 的 
miRNA 表 达 谱 。 通 过 层次 聚 类 ,发 现 miRNA 表 达 谱 能 够 很 好 地 把 乳腺 癌 细 胞 系 、 原 发 肿瘤 样 
本 和 正常 样本 分 开 。 同 时 聚 类 分 析 结 果 表 明 ER- 和 ER+ 两 个 乳腺 癌 亚 型 在 miRNA 表 达 模 式 
上 存在 显著 的 不 同 。 为 了 进一步 证 实 miRNA 是 否 在 乳腺 癌 不 同 亚 型 中 差异 表达 ,利用 单 样 
本 预测 算法 把 93 原 发 乳腺 癌 样 本 进行 亚 型 分 类 : luminal A, luminal B、basal-like、HER2+ 和 和 
normal-like。 通 过 识别 乳腺 癌 亚 型 间 差异 表达 的 miRNA ,利用 差异 表达 的 miRNA 对 有 亚 型 标 
签 的 样本 进行 有 监督 聚 类 。 结 果 表 明 这 些 差 异 表 达 基 因 能 够 很 好 地 将 乳腺 瘤 亚 型 分 开 。 为 
了 证 明 miRNA 表 达 谱 对 样本 亚 型 具有 预测 的 潜能 ,利用 检测 137 个 miRNA 表 达 谱 的 basal-like 
样本 和 luminal A 样本 进行 基于 模型 的 判别 分 析 , 并 对 Lu 等 检测 的 11 乳 腺 癌 样 本 进行 分 类 。 
结果 表明 基于 miRNA 表 达 谱 可 以 有 效 地 对 乳腺 癌 亚 型 进行 分 类 。 

这 些 研究 上 暗示 着 miRNA 表 达 数 据 中 蕴含 着 惊人 的 信息 量 , 不 仅 能 够 有 效 地 反映 出 不 同 
的 组 织 起 源 和 癌症 分 化 状态 ,而 且 同 mRNA 数据 相 比较 ,利用 miRNA 表 达 谱 数据 能 够 更 有 效 
地 预测 出 低 分 化 癌症 样本 的 组 织 类 型 。 总 之 , miRNA 表 达 谱 数据 为 癌症 的 诊断 提供 了 潜在 
的 可 能 性 。 


(=) miRNA 表 达 谱 数据 应 用 于 癌症 预后 


除了 利用 miRNA 表 达 谱 分 类 癌症 ,潜在 地 将 miRNA 标 签 应 用 于 癌症 诊断 之 外 ,很 多 研究 
还 表明 miRNA 标 签 有 可 能 用 于 人 类 癌症 的 预后 。 这 些 探索 miRNA 在 肿瘤 发 展 中 作用 的 研究 
将 研究 重点 放 在 治疗 策略 靶 向 的 miRNA 或 miRNA 调 控 的 通路 之 中 ,通过 研究 不 同时 期 或 不 
同 阶段 癌症 中 miRNA 标 签 来 用 于 患者 的 预后 。 例 如 , Hu 等 人 发 现在 人 类 血清 之 中 存在 稳定 
表达 的 miRNA ,这 些 miRNA 可 以 作为 潜在 的 疾病 标签 预测 存活 。 作 为 实例 , Hu 等 人 利用 I 
至 了 期 的 肺癌 和 鳞 状 细胞 癌 患 者 血清 样本 进行 研究 ,通过 qRT-PCR 忌 片 检测 发 现 30 个 长 期 
存活 的 患者 血清 中 的 miRNA 表 达 水 平 与 30 个 短期 存活 患者 相 比 具有 显著 差异 。 通 过 检测 发 
现 四 个 miRNA 标 签 : miR-486 、miR-30d 、miR-1 和 miR-499 可 以 作为 非 侵 蚀 性 的 预测 子 用 来 预 
测 非 小 细胞 肺癌 患者 的 存活 时 间 。 通 过 研究 182 个 急性 髓 样 白 血 病 患 者 样本 中 miRNA 表 达 ， 
Ramiro 等 人 发 现 与 正常 样本 相 比 ,疾病 样本 中 很 多 miRNA 差 异 表达 并 且 这 些 miRNA 的 表达 与 
分 子 异常 紧密 相关 。 通 过 对 122 个 新 诊断 为 急性 髓 样 白血病 患者 样本 的 miRNA 表 达 谱 进行 生 
存 分 析 发 现 miR-191 和 miR-199a 两 个 miRNA 与 急性 髓 样 白 血 病 患 者 的 预后 不 良 显著 相关 。 





三 、miRNA 表 达 庶 与 mRNA 表 达 庶 整合 分 析 >> 


近年 来 , miRNA 作 为 转录 后 调控 的 重要 调控 因子 成 为 科研 的 研究 热点 。 很 多 研究 人 
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因 之 间 存 在 多 对 多 的 关系 ,也 就 是 靶 的 多 样 性 和 miRNA 的 协同 性 。 但 是 这 些 预测 算法 并 不 
能 明确 指出 哪些 miRNA 靶 关系 在 特定 的 条 件 下 被 激活 ,进而 发 挥 作用 。 随 着 实验 检测 技术 
的 不 断 发 展 , 产 生 了 大 量 的 miRNA 和 mRNA 表达 谱 数 据 。 生 物 信 息 学 研究 者 通过 整合 多 种 基 
因 组 数据 ( mi RNA EA TÉ , mRNA TÉ, mi RNA RE 2 JEAA ie .蛋白 质 互 作 网 络 ) 来 
研究 miRNA 的 功能 。 整 合 miRNA 表 达 谱 和 mRNA 表达 谱 研究 疾病 将 有 助 于 提高 研究 结果 的 
准确 性 。 

miRNA 和 mRNA 表达 谱 可 以 用 来 衡量 某 特 定 条 件 下 miRNA 和 基因 的 活性 。 同 时 ， 
miRNA 和 mRNA 表达 谱 提 供 了 不 同 细胞 状态 下 miRNA、 基 因 以 及 二 者 的 调控 关系 在 转录 水 
平 上 的 动态 性 。 整 合 miRNA 表 达 谱 和 mRNA 表达 谱 , 能 够 更 准确 地 研究 miRNA 靶 问 关 系 , 进 
而 明确 miRNA 在 不 同 状态 下 的 作用 。 我 们 可 以 从 两 个 方面 来 分 析 miRNA 在 不 同 状 态 下 的 功 
能 。 一 是 基于 miRNA 表 达 谱 和 mRNA 表达 谱 预 测 miRNA 靶 基因 ,进而 分 析 miRNA 的 功能 。 二 
是 ,结合 已 知 基于 序列 的 邯 基 因 预 测算 法 ,利用 miRNA 表 达 谱 和 mRNA 表 达 谱 识别 在 特定 条 
件 下 的 miRNA-mRNA 调 控 模块 。 


(一 ) 预测 miRNA 靶 位 点 


虽然 很 多 基于 序列 靶 预 测算 法 已 经 预测 出 很 多 miRNA 靶 基因 ,只 有 很 少数 的 miRNA 通 
过 实验 证 实 具 有 特定 的 功能 。 准 确 预 测 miRNA 靶 基因 不 但 是 研究 miRNA 功 能 特征 的 一 个 瓶 
颈 ,而 且 是 研究 由 miRNA 失 调 引 发 的 人 类 疾病 的 关键 。 此 外 ,难以 正确 的 识别 具有 生理 活性 
的 miRNA 仍 是 研究 miRNA 功 能 特征 的 阻碍 。 

众所周知 , miRNA 通 过 抑制 靶 基 因 的 翻译 或 降解 mRNA 来 调节 基因 的 表达 。miRNA 的 
功能 失调 会 导致 下 游 靶 基 因 的 表达 紊乱 。 很 多 miRNA 转 染 或 敲 除 实验 使 得 其 靶 基因 的 表达 
降低 或 升 高 ,进而 证 明 miRNA 与 其 靶 基 因 呈 现 靶 向 关系 ;并 且 这 种 关系 是 逆向 的 。 最 近 , Guo 
等 人 通过 敲 除 mir-223 以 及 转 染 mir-1、mir-15 证 明 miRNA 主 要 是 通过 降解 mnRNA 导 致 蛋 白质 
的 表达 水 平 下 降 。 利 用 miRNA 和 mRNA 同 时 检测 的 表达 谱 可 以 准确 预测 功能 miRNA 靶 点 。 

Huang 等 人 在 序列 预测 算法 的 基础 上 ,结合 同时 检测 的 88 个 组 织 中 miRNA 和 mRNA 表 达 
数据 ,对 miRNA 靶 关系 进行 进一步 筛选 ,提高 了 预测 精度 ,并 通过 实验 证 实 了 其 预测 的 靶 基 
因 。GCennarino 等 人 基于 miRNA 与 其 宿主 基因 之 间 具 有 强 共 表达 关系 ,利用 miRNA 和 宿主 基因 
表达 代替 miRNA 的 表达 ,通过 计算 miRNA 宿 主 基 因 与 nRNA 的 逆向 共 表 达 关 系 预 测 miRNA 
S XE DS ,使 靶 基 因 预 测 准确 性 有 所 提高 。Liu 等 人 基于 89 个 人 类 组 织 中 的 miRNA 和 mRNA 表 
达 谱 ,计算 miRNA-mRNA 对 的 相关 性 ,利用 成 熟 mRNA 的 功能 来 推断 miRNA 的 功能 。 

同时 ,人 们 发 现 miRNA 在 疾病 研究 中 起 着 重要 作用 ,因此 需要 研究 miRNA 在 特定 疾病 中 
的 功能 。 利 用 同步 检测 疾病 相关 的 miRNA 和 mRNA 表达 谱 , 我 们 还 可 以 预测 特定 疾病 条 件 
下 被 激活 的 miRNA 靶 向 关系 。 


(二 ) 识别 miRNA 调 控 模 块 


miRNA 的 出 现 使 基因 调控 网 络 变 得 更 为 复杂 。miRNA 作 为 新 的 基因 调控 网 络 的 重要 调 
控 子 ,其 功能 成 为 研究 热点 。 研 究 人 员 从 计算 方法 和 实验 方法 两 个 方面 来 解析 miRNA 的 功 
能 。 在 研究 miRNA 之 初 ,人 们 主要 识别 miRNA 和 它们 的 靶 基 因 ,并 为 此 开发 了 很 多 预测 靶 基 
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因 的 算法 ,通过 研究 它们 的 靶 基因 集合 的 功能 来 推断 miRNA 的 功能 。 靶 基因 预测 算法 的 结 
果 表 明 , 一 个 miRNA 可 以 靶 疝 成 百 上 千 个 基因 。 同 时 一 个 基因 也 可 以 被 数 十 个 miRNA 调 控 。 
这 种 miRNA 和 基因 之 间 多 对 多 的 复杂 调控 关系 , 即 靶 基因 多 样 性 和 miRNA 协 同性 ,促使 研究 
人 员 假设 miRNA 通 过 调控 它们 共同 的 靶 基 因 组 成 一 个 调控 模块 参与 复杂 的 生物 学 过 程 。 

尽管 miRNA 调 控 机 制 的 研究 有 了 很 大 的 进展 ,关于 miRNA 功 能 的 一 些 基础 的 问题 还 是 
没有 和 弄 清楚 。 比 如 : 在 特定 的 条 件 下 ,哪些 miRNA 表 达 了 ? 哪些 基因 表达 了 ? 表达 的 miRNA 
和 基因 之 间 有 什么 样 的 关系 ? miRNA 通 过 调节 哪些 丢 基 因 的 表达 进而 对 生物 学 过 程 调控 ? 
累积 的 实验 结果 表明 并 不 是 单个 miRNA 导 致 表 型 的 变化 ,而 是 多 个 miRNA 同 时 靶 向 细胞 过 
程 中 的 重要 组 分 进而 调控 生物 过 程 。Mavrakis 实 验 表 明 miR-9b 、miR-20a 、miR-26a 、miR-9 
和 miR-223 通过 协同 调控 肿瘤 抑制 基因 PTEN 、BIM、PHF6 、NF1 和 FBXW7 促 进 T 细 胞 急性 淋 
巴 性 白血病 的 发 展 。 

为 了 了 解 miRNA 在 复杂 细胞 系统 中 的 调控 机 制 , 在 miRNA 和 mRNA 复杂 调控 关系 中 识 
别 出 功 能 模块 非常 重要 。2005 年 , Yoon 等 人 提出 了 miRNA-mRNA 调 控 模 块 的 概念 , 即 一 组 
共同 参与 相同 生物 学 过 程 的 miRNA 和 其 靶 基 因 。 他 们 基于 序列 匹配 程度 来 识别 miRNA 调 
控 模 块 ,体现 不 出 特定 条 件 下 miRNA 靶 关系 的 激活 状态 。 而 miRNA 和 mRNA 表达 谱 能 够 很 
好 地 反映 miRNA 和 mRNA 在 特定 条 件 下 的 激活 状态 ,整合 miRNA 表 达 谱 和 mRNA 表 达 谱 对 
于 识别 特定 条 件 下 激活 的 miRNA-mRNA 调 控 模块 有 很 大 的 帮助 。 随 着 对 miRNA 的 进一步 
研究 和 越 来 越 多 的 同步 检测 的 miRNA 表 达 谱 和 mRNA 表达 谱 的 出 现 ,识别 条 件 特异 的 高 置 
信 的 miRNA-mRNA 调 控 模 块 成 为 可 能 。 在 本 文中 ,我 们 介绍 两 种 不 同 整合 miRNA 表 达 谱 和 
mRNA 表达 谱 的 方法 来 识别 miRNA 调 控 模 块 。 一 是 直接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 ， 
即 基 于 miRNA 和 mRNA 之 间 逆 向 共 表 达 的 关系 。 二 是 间接 整合 miRNA 表 达 谱 和 mRNA 表达 
谱 , 即 基于 miRNA 表 达 一 致 和 mRNA 表达 一 致 性 。 

直接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 的 方法 要 求 miRNA 表 达 谱 和 mRNA 表达 谱 来 自 
同一 组 样本 ,这 些 配对 的 表达 谱 能 够 同时 反映 miRNA 和 mRNA 在 同一 种 状态 下 活性 。Peng 
等 检测 了 30 个 HCV 阳性 或 阴性 人 类 肝脏 活 组 织 样本 的 miRNA 和 mRNA 表达 谱 。miRNA 主 要 
是 通过 降解 靶 基 因 mRNA 水 平 来 行使 功能 ,具有 逆向 相关 的 miRNA-mRNA 关 系 对 被 认为 是 
在 HCV 条 件 下 激活 的 。 通 过 计算 miRNA 和 mRNA 之 间 的 皮尔 森 相关 系数 ,寻找 逆向 相关 的 
miRNA-mRNA 关 系 对 。 结 合 miRNA 和 部 基 因 在 序列 水 平 上 的 调控 关系 ,构建 出 特定 条 件 下 
激活 的 miRNA-mRNA 二 部 图 。 人 们 可 以 在 这 个 二 部 图 上 寻找 最 大 的 完全 连接 的 子 二 部 图 。 

间接 整合 miRNA 表 达 谱 和 mRNA 表达 谱 的 方法 不 要 求 miRNA 表 达 谱 和 mRNA 表达 谱 来 

自 同一 组 样本 ,但 是 miRNA 表 达 谱 和 mRNA 表达 谱 应 该 针对 相同 的 表 型 。Joung 等 人 开发 了 

一 种 基于 群体 的 概率 学 习 算 法 ,通过 整合 miRNA 丢 基因 信息 、miRNA 表 达 谱 和 mRNA 表达 
详 来 识别 一 致 mjRNA-mRNA 调 挖 模块 (图 10-4 )。miRNA 表 达 一 致 性 .mRNA 表达 一 致 性 和 
miRNA 与 nRNA 在 序列 上 的 绑 定 程 度 是 识别 miRNA-mRNA 调 控 模 块 的 三 个 组 成 部 分 。 计 算 
miRNA 和 mRNA 各 自 皮 尔 森 相关 系数 和 miRNA 与 nRNA 在 序列 上 的 绑 定 程度 ,把 这 三 个 参 
数 输入 到 遗传 算法 中 ,通过 迭代 ,使 目标 函数 达到 最 优化 ,进而 获得 miRNA-mRNA 调 控 模 块 
(图 10-5 )。 
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四 、 新 一 代 测序 检测 miRNA 转 录 组 > > 


新 一 代 测 序 技术 又 称 作 深 度 测序 技术 ,主要 特点 是 测序 通 量 高 测序 时 间 和 成 本 与 第 
一 代 测 序 技术 相 比 显著 下 降 。 转 录 组 是 指 特定 细胞 在 某 一 功能 状态 下 所 能 转录 出 来 的 所 
有 RNA 的 总 和 ,包括 mRNA 和 非 编 码 RNA( non-coding RNA )。 非 编码 RNA 又 包括 : tRNA, 
rRNA, miRNA, 、piRNA 和 long ncRNA 等 。RNA-Seq 利用 高 通 量 测序 技术 对 组 织 或 细胞 中 所 
有 RNA( 即 是 整个 转录 组 ) 反 转录 而 成 的 cDNA 文库 进行 测序 ,通过 统计 相关 读 段 (read ) 数 
计算 出 不 同 RNA 的 表达 量 ,发 现 新 的 转录 本 ; 如 果 有 基因 组 参考 序列 ,可 以 把 转录 本 映射 回 
基因 组 ,确定 转录 本 位 置 、 剪 切 情况 等 更 为 全 面 的 遗传 信息 。 由 于 RNA-seq 是 对 细胞 的 整个 
转录 组 进行 测序 , 它 能 同时 检测 映射 的 转录 区 域 和 基因 表达 ,动态 的 量化 整个 转录 组 的 表达 
水 平 , 区 分 不 同 的 转录 本 亚 型 。 

miRNA 是 一 类 大 小 为 21~23nt 的 非 编码 小 RNA 分 子 ,通过 和 部 基因 3 非 翻 译 区 结合 引 
导 RNA 诱 导 的 沉默 复合 体 降 解 其 对 或 阻碍 其 靶 的 翻译 。miRNA 存 在 于 各 种 真 核 生物 中 , 广 
泛 参与 细胞 增殖 、 凋 亡 、 代 谢 及 分 化 等 过 程 。 最 近 人 研究 表明 , miRNA 在 疾病 的 发 生发 展 过 程 
中 也 具有 重要 的 作用 ,在 诊断 和 治疗 疾病 上 有 光明 的 应 用 前 景 。 但 是 目前 研究 miRNA 的 主 
要 方法 是 通过 定时 定量 的 PCR 进 行 检测 ,这 些 方法 主要 关注 miRNA 的 表达 ,并 局 限于 研究 
那些 序列 信息 和 二 级 葵 环 结构 信息 已 知 的 miRNA ,无 法 寻找 和 发 现 新 的 miRNA 分 子 。 现 在 
已 有 专门 用 于 miRNA 组 的 测序 技术 一 一 miRNA-seq, 它 能 够 直接 对 样本 中 指定 大 小 的 所 有 
miRNA 分 子 进行 高 通 量 测序 ,在 无 需 任何 参考 序列 的 条 件 下 研究 miRNA 的 表达 谱 , 并 在 此 基 
础 上 鉴定 新 的 miRNA 分 子 , 从 而 进行 更 加 深入 的 分 析 ( 图 10-6 )。 
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(一 ) miRNA 一 seq 流 程 


miRNA-seq 与 RNA-seq 不 同 之 处 在 于 文库 制备 的 过 程 中 对 于 样本 的 处 理 , miRNA-seq 
在 文库 制备 中 首先 从 总 的 RNA 分 子 中 提取 长 度 为 21~23 个 碱 基 左右 的 小 RNA; 然后 对 提取 的 
RNA 5' 端 连 接 接头 并 纯化 ,再 对 3 ” 端 连接 接头 并 纯化 ; 然后 用 随机 引物 和 反 转 录 酶 从 RNA 
合成 cDNA 片段 ,然后 利用 凝 胶 电泳 实验 对 样本 进行 纯化 ; cDNA 文库 制备 完成 后 就 可 以 进行 
测序 了 。 这 样 测序 得 到 的 将 是 全 部 的 miRNA 转 录 本 ,研究 人 员 可 以 0 i p 
处 理 分 析 。miRNA-seq 可 以 一 次 性 获得 数 百 万 条 miRNA 序 列 , 能 够 快速 鉴定 出 不 同 组 织 .不 
同 发 育 阶 段 .不同 疾病 状态 下 已 知 和 未 知 的 miRNA 及 其 表达 差异 ， Siete a aC 
的 作用 及 其 生物 学 影响 提供 了 有 力 工 具 。 


(二 ) miRNA 转 录 组 分 析 


1. 数据 处 理 及 分 析 “如 图 10-7, miRNA-seq 的 数据 处 理 及 分 析 步 又 。 对 原始 数据 进行 
过 滤 ,去 除 那些 可 能 的 测序 错误 。 那 些 定位 到 已 知 miRNA 前 体 序列 的 read 序 列 经 过 装配 得 到 
miRNA 表 达 数 据 ; 那些 未 被 定位 到 已 知 miRNA 的 read 序 列 可 以 用 于 发 现 潜在 的 新 的 miRNA; 
BRT miRNA read 序 列 , 也 可 以 用 于 发 现 其 余 的 small RNA 种 类 、piRNA 或 者 snoRNA。 
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图 10-7 miRNA 一 seq 的 数据 处 理 及 分 析 步 骤 


2. 基本 数据 分 析 “得 到 原始 数据 以 后 ,首先 对 miRNA-seq 的 数据 进行 预 处 理 ,例如 进行 
Base-calling ,去除 污染 及 接头 的 序列 ,过 滤 质 量 较 差 的 read 等 。 这 样 可 以 得 到 测定 的 read 的 
长 度 、read 的 数量 和 其 质量 。 然 后 将 经 过 预 处 理 的 read 映 射 到 参考 基因 组 上 ,可 以 得 到 各 个 
read 在 基因 组 上 的 分 布 。 然 后 将 read 装 配 成 转录 本 ,根据 read 在 参考 基因 组 上 的 位 置 ,可 以 估 
计 出 基因 的 表达 水 平 。read 数 目 与 基因 真实 表达 水 平成 正比 ,与 基因 长 度 成 正比 ,与 测序 深 
度 正 相 关 。 可 以 用 RPKM 来 衡量 基因 的 表达 水 平 , 即 每 百 万 读 段 中 来 自 于 某 基 因 每 千 碱 基 长 
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度 的 读 段 数 。 





基因 区 段 计 数 ci 
基因 长 度 x 测序 深度 

现在 已 有 专门 的 软件 进行 这 些 工 作 , 比如: rseq、DEGseq、Cufflinks 等 。 

3. 高 级 数据 分 析 ”目前 常用 的 生物 信息 学 流程 : 利用 SHRiMP ,将 miRNA 前 体 发 来 序列 
比 对 到 成 熟 miRNA 和 较 小 的 miRNA*, 利 用 得 到 的 编码 坐标 来 确定 已 知 的 miRNA。 基 本 处 理 
后 ,我们 得 到 那些 唯一 的 序列 ,保留 它们 的 read 信 息 ,那些 唯一 的 序列 比 对 到 miRBase miRNA 
前 体 发 来 上 来 确定 成 熟 miRNA/miRNA* 序 列 。 


(三 ) 预测 新 的 miRNA 


目前 人 们 已 开发 出 多 种 算法 ,来 预测 miRNA。 但 是 所 有 方法 都 利用 了 二 级 结构 信息 , 因 
为 发 夹 结 构 的 存在 是 miRNA 的 主要 特征 。 其 中 许多 方法 还 依靠 序列 的 保守 性 来 区 分 miRNA 
候选 物 和 无 关 的 基因 组 发 来 。 男 一 些 方法 则 评估 发 来 结构 与 已 知 miRNA 的 序列 和 结构 相似 
度 及 其 热力 学 稳定 性 , 男 一 种 高 效 的 方法 是 探索 已 知 miRNA 周 围 的 基因 组 序列 ,因为 许多 
miRNA 都 是 成 徐 排 布 。 人 和 小 鼠 的 许多 miRNA 就 是 通过 这 种 方式 鉴定 出 的 。 当 然 ,计算 机 
预测 出 来 的 候选 miRNA 还 需要 实验 的 验证 。 

我 们 可 以 将 miRNA-seq 得 到 的 序列 与 数据 库 miBase .数据 库 Refseq、rRNA 数 据 库 、tRNA 
数据 库 进行 比 对 ,从 而 对 已 知 miRNA 进 行 注释 。 那 些 在 已 知 数据 库 中 未 能 找到 注释 信息 的 
miRNA, 则 可 能 是 新 的 miRNA。 也 可 以 将 测序 得 到 的 序列 与 该 物种 全 基因 组 序列 进行 比 对 
分 析 , 通 过 折 双 模型 预测 新 的 miRNA。 

现在 已 有 专门 的 软件 进行 这 些 预测 工作 ,比如 miRAnalyzer, 它 有 三 个 分 析 步 又 : 在 
miBase 数 据 库 中 发 现 有 注释 的 miRNA; 再 将 read 定 位 到 转录 序列 的 文库 ( mRNA、 ncRNA ); 
预测 新 的 miRNA。 

利用 miRNA-seq 得 到 read 数 据 ,首先 去 除 低 质量 的 read、 没 有 3” 接头 的 read 或 低 复杂 度 
的 read ,选择 成 熟 miRNA 长 度 的 read, 然 后 将 read 处 理 成 那些 唯一 的 序列 。 获 得 高 质量 的 唯 
一 序列 后 ,将 其 比 对 到 参考 基因 组 上 ,然后 通过 整合 单个 的 read 比 对 的 序列 数据 来 确定 序列 
的 簇 ,再 对 簇 进行 优化 ,得 到 候选 徐 。 再 使 用 miRNA 的 验证 工具 ,通过 分 析 miRNA 的 前 体 发 
夹 的 预测 的 二 级 结构 来 对 候选 簇 进行 分 析 , 从 而 得 到 miRNA 的 基因 结构 。 这 样 得 到 的 基因 
结构 有 已 知 的 还 有 未 知 的 ,就 可 以 预测 新 的 miRNA。 对 于 那些 未 定位 到 已 知 miRNA 前 体 的 
read 序 列 ,继续 将 他 们 映射 到 整个 基因 组 上 。 对 于 精确 定位 到 基因 组 上 的 read 利 用 现 有 的 软 
件 ( 如 Vienna package ) JT MRNA, M fij £55] — 2 [Bt 4E miRNA E JE RH ,然后 对 这 些 发 夹 
结构 进行 过 滤 , 得 到 具有 单个 环 的 发 夹 结构 的 假定 的 成 熟 的 miRNA ,这 些 miRNA 作 为 可 能 正 
确 的 发 来 。 对 他 们 再 进行 折 茎 过滤 ,就 可 以 得 到 具有 正确 茎 环 结 构 的 新 的 miRNA。 


(四 ) 比较 不 同 miRNA 之 间 的 表达 差异 


利用 miRNA-seq 数 据 我 们 可 以 得 到 每 个 miRNA 的 表达 水 平 ; 继 而 可 以 比较 它们 之 间 的 
表达 差异 ,也 可 以 根据 miRNA 所 在 的 得 来 分 析 不 同 复 的 差异 表达 。 可 以 利用 R Bioconductor 
软件 包 、DeSeq 来 进行 miRNA 差 异 表达 分 析 。 


RPKM= (10-1 ) 
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CR) 发 现 已 知 miRNA 的 新 亚 型 


RNA 序 列 的 变异 可 以 导致 mRNA 的 不 同 的 isomiRs。miRNA 的 isomiRs 非 常 普遍 ,他 们 可 
能 是 miRNA 在 生物 起 源 中 的 修剪 或 切割 所 致 。 通 过 分 析 miRNA 序 列 内 部 变异 和 3” 端 变异 
可 以 发 现 miRNA 的 isomiRs。 在 比 对 到 miRBase 前 体 发 夹 后 ,分 析 那 些 没 有 匹配 到 miRNA 参 考 
基因 的 3” 端 变 异 。 那 些 序列 的 改变 导致 该 序列 没有 匹配 到 前 体 发 来 ,根据 他 们 是 否 与 已 知 
的 miRNA 的 编辑 过 程 一 致 来 进行 分 类 。 

总 之 , miRNA-sed 方 法 可 以 产生 关于 small RNA 的 大 量 数据 , 即 miRNA 转 录 组 的 数据 ,很 
好 地 刻画 miRNA 转 录 组 的 信息 。 从 这 些 数据 中 我 们 不 仅 可 以 得 到 miRNA 的 表达 信息 ,发 现 
新 的 miRNA ,预测 miRNA 的 靶 基 因 , 检 测 差异 表达 的 miRNA ,还 可 以 得 到 别 的 小 RNA 的 信息 ， 
例如 piRNA „snoRNA, 
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一 个 生物 体 通常 由 上 百 种 细胞 类 型 组 成 ,这 些 细胞 具有 同一 套 遗 传 信息 ,然而 它们 却 在 
生物 体 中 行使 着 截然 不 同 的 功能 。 研 究 者 们 认为 生物 体 中 细胞 的 状态 依赖 于 基因 组 的 染色 
质 状态 。 染 色 质 状态 能 够 标记 基因 组 的 动态 调控 模式 ,也 就 是 说 对 于 不 同类 型 的 细胞 ,它们 
的 基因 调控 模式 不 尽 相 同 。 细 胞 或 者 组 织 特 异 的 基因 调控 模式 影响 基因 的 表达 ,进而 影响 
基因 编码 蛋白 质 的 功能 。 因 此 ,理解 基因 的 转录 调控 网 络 对 于 揭示 细胞 发 育 和 分 析 细 胞 状 
态 有 至 关 重 要 的 作用 。 在 基因 转录 调控 网 络 中 ,尤为 重要 的 两 类 反 式 作用 因子 包括 转录 因 
子 (transcriptional factor, TF ) 和 miRNA。 其 中 , TF 通 过 特异 性 地 识别 靶 基 因 上 游 5” 端 特定 
序列 (启动 子 ), 与 其 特异 结合 进而 激活 基因 的 转录 。miRNA 的 种 子 序列 在 RNA 诱 导 的 沉默 
复合 物 作 用 下 特异 性 识别 、. 绑 定 靶 基因 的 3”UTR ,基于 翻译 抑制 和 mRNA 降解 两 种 机 制 在 转 
录 后 水 平 调节 基因 的 表达 。 因 此 ,基因 网 络 中 两 类 重要 的 调控 子 ( TF 和 miRNA ) 在 不 同 层面 
(转录 和 转录 后 水 平 ) 调 控 基因 的 表达 。 大 量 的 实验 或 者 计算 机 靶 基 因 预 测算 法 分 析 表 明 ， 
一 个 调控 子 ( TF 或 者 miRNA ) 都 能 够 调节 多 个 甚至 上 百 个 基因 的 表达 (图 10-8 ), 一 个 基因 的 
表达 通常 会 受到 多 个 调控 子 的 作用 。 越 来 越 多 的 证 据 显 示 , 生 物 过 程 中 一 个 基因 同时 受到 
两 种 调控 子 作 用 的 现象 是 普遍 发 生 的 (图 10-9 ), 这 说 明 , TF 和 miRNA 在 基因 调控 网 络 中 存 
在 着 互 作 关 系 。 

目前 ,研究 者 们 通过 基因 芯片 或 者 高 通 量 测序 技术 检测 基因 的 表达 ,扫描 基因 组 上 TF 的 
模 体 ( motif ) 并 分 析 其 富 集 情况 ,利用 计算 机 预测 或 者 实验 方法 识别 TF 的 靶 基 因 , 整 合 这 些 
言 息 进而 构建 TF 介 导 的 基因 转录 调控 网 络 。 对 于 miRNA 而 言 , 许 多 靶 基 因 预 测算 法 都 能 够 
识别 miRNA-mRNA 调 控 关系 。 同 时 ,在 miRNA 技 基因 预测 研究 中 ,研究 者 发 现 TF 是 miRNA 
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图 10-8 TF 和 miRNA 调 控 多 个 基因 示意 图 
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pio- 9 ”两 种 调控 子 (TF 与 miRNA) 同时 调控 一 个 基因 


的 一 类 重要 的 车 基因 ， miRNA 通 过 调节 TF 进而 影响 下 游 蛋 白质 表达 ， 这 一 证 据 为 基因 调控 
网 络 中 TF 与 miRNA 存 在 关联 提供 了 支持 。 随 后 , 越 来 越 多 的 研究 结果 都 显示 在 基因 表达 调 
控 过 程 中 普遍 存在 TF 和 miRNA 的 互 作 模 式 , 并 且 基 于 实验 方法 证 实 了 调控 子 互 作 模 式 在 生 
物体 发 育 过 程 中 的 重要 作用 。 此 外 , miRNA 转 染 和 敲 除 实验 是 预测 miRNA 功 能 的 有 效 方 
iX, Hamoo 等 人 利用 转 染 癌 症 相 关 miRNA 得 到 的 基因 表达 数据 ,结合 TF 的 靶 基 因 和 集合 ,利用 
Wilcoson 检 验 和 K-S 检 验方 法 比较 TF 的 靶 基 因 与 非 靶 基因 的 表达 差异 情况 ,进而 识别 了 特定 
转 染 的 miRNA 与 相应 条 件 下 显著 激活 的 TF 的 关联 ,最 终 构建 了 与 癌症 相关 的 miRNA 调 控 TF 
网 络 。 该 研究 结果 表明 对 不 同 的 miRNA 进 行 干 扰 时 ,生物 体会 产生 与 其 相对 应 的 TF 应 答 , 进 
而 调节 癌症 过 程 中 的 相关 生物 学 通路 。 而 且 ,基于 双 表 达 谱 数据 分 析 , 发 现 TF 与 miRNA 对 基 
因 表达 的 协同 调控 模式 能 够 为 精确 分 类 细胞 形态 提供 可 靠 依据 。 因 此 ,识别 TF-miRNA 互 作 
模式 和 构建 TF-miRNA 调 控 网 络 对 于 揭示 生物 体 复杂 的 生理 机 制 ,进而 解释 复杂 疾病 的 发 病 
机 制 提供 依据 。 

为 了 系统 性 地 识别 TF-miRNA 互 作 模式 ,理解 基因 的 转录 和 转录 后 调控 机 制 , 揭 示 生 物 
体 复杂 的 调控 过 程 ,许多 生物 信息 学 研究 者 已 经 开始 利用 各 种 数据 资源 来 构建 TF-miRNA 调 
控 网 络 。 

靶 基 因数 据 资源 : 靶 基 因 集 合 是 TF 和 miRNA 功 能 预测 中 的 一 个 重要 的 数据 资源 ,大 量 
研究 都 利用 调控 子 ( TF 和 miRNA ) 靶 基因 的 功能 来 预测 分 析 调控 子 可 能 具有 的 生物 学 功能 ， 
并 且 许 多 预测 结果 已 经 得 到 实验 证 实 。 那 么 , 靶 基 因 是 否 可 用 于 预测 TF 和 miRNA 的 关联 ? 

Shalgi 等 人 通过 对 TF 和 miRNA 驾 基因 的 重 春 现 象 的 研究 发 现 ,具有 相似 靶 基 因 集合 的 调 
控 子 (miRNA 对 和 TF-miRNA 对 ), 它 们 倾向 于 存在 互 作 关系 。 因 此 ,基于 TF 和 miRNA 的 靶 基 
因数 据 ,通过 寻找 显著 共享 靶 基 因 的 TF 和 miRNA ,能 够 识别 TF-_-miRNA 互 作 关系 。 这 种 互 作 
关系 分 别 在 转录 和 转录 后 水 平 控制 基因 的 表达 ,形成 了 基因 的 TF-miRNA 共 调控 网 络 。 

[ 例 10-1 ] 基 于 共同 靶 基因 构建 miRNA 转 录 调 控 网 

l 数据 准备 ”基于 共享 贰 基因 构建 miRNA-TF 转 录 调 控 网 络 需 要 两 种 类 型 数据 : 
miRNA 及 其 靶 基 因数 据 、TF 及 其 靶 基 因数 据 。 为 此 , Shalgi 等 人 从 TargetScan 和 PicTar 两 个 数 
据 库 中 获取 保守 的 miRNA 与 其 靶 基 因数 据 ,从 UCSC 中 获取 TF 与 其 保守 的 结合 位 点 ( TFBS ) 
和 miRNA 靶 基因 的 序列 信息 。 

2. 网 络 构建 ”得 到 上 述 数据 后 ,通过 寻找 miRNA 靶 基因 上 是 否 有 TF 结合 位 点 来 确定 该 
TF 的 靶 基 因 , 再 建 阐 miRNA-gene 和 矩阵 和 TF-gene 和 矩阵 ,和 矩阵 内 有 调控 关系 的 元 素 对 取 值 为 1， 
反之 则 为 0。 通 过 这 两 个 矩阵 寻找 共享 靶 基因 的 miRNA-TF 对 ,再 利用 超 几何 检验 和 随机 性 
检验 确定 显著 共享 靶 基 因 的 miRNA-TF 对 。 
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首先 ,对 每 一 对 miRNA-TF 进 行 超 几 何 检验 ,计算 公式 如 下 : 


doe] 
Xi N-i 
p-1l- 2. M ( 10-2) 
z 

其 中 , M 为 含有 至 少 一 个 TFBS 的 总 的 miRNA 靶 基因 个 数 , N 为 该 对 调控 子 中 miRNA 靶 基 
因 个 数 , kK 为 该 对 调控 子 中 TF 靶 基 因 个 数 , x 为 该 对 miRNA 和 TF 共享 的 靶 基 因 个 数 。 计 算出 p 
值 以 后 需 进行 FDR 校 正 ,这 里 取 FDR < 0.3。 如 此 我 们 分 别 从 TargetScan 和 PicTar 中 得 到 111 对 
miRNA-TF 和 1263 对 miRNA-TF。 

然后 ,再 对 上 述 得 到 的 miRNA-TF 对 进行 随机 性 检验 。 我 们 随机 选取 具有 鞭 向 关系 的 一 
对 miRNA(i ) -gene( 1 ) 和 一 对 TF(j ) -gene( 2) HmiRNA( i ) 与 gene( 2 )、TF(j ) 与 gene( 1 ) ? 
有 部 向 关系 ,交换 它们 的 边 ,即将 miRNA(i)-gene( 1 ) 和 TF(j )-gene( 2 ) 的 取 值 由 1 变 为 0， 
将 miRNA(i ) -gene( 2 ) 和 一 对 TF(j )-gene( 1 ) 的 取 值 由 0 变 为 1, 以 保证 每 个 miRNA 和 TF 的 
靶 基 因 个 数 不 变 ,每 个 基因 对 应 的 miRNA 和 TF 个 数 不 变 。 该 方法 为 边 交 换 , 我 们 建立 1000 
个 随机 的 miRNA-gene 和 矩阵 和 TF-gene 和 矩阵 ,其 中 每 对 拖 阵 都 进行 了 100 000 次 边 交 换 。 我 们 
对 这 1000 个 随机 得 到 的 矩阵 对 及 原始 的 矩阵 对 中 的 所 有 miRNA-TF 对 计算 MeeVMin 得 分 : 

Targets (i )NTargets( j) 
min (|Targets (i J. ).. [Targets ( j |) (10-3) 





Meet / Min = 


其 中 , Targets(j ) 为 第 ;个 miRNA 的 靶 基 因 集 合 , Targets j ) 为 第 /个 TF 的 靶 基 因 集合 。 对 
于 第 ;个 miRNA 和 第 /个 TF ,随机 性 检验 的 p 值 为 1000 个 随机 得 到 的 靶 集 合 对 中 MeeVMin 得 分 
大 于 原始 靶 集合 对 中 Meet/Min 得 分 的 邯 集 合 对 所 占 的 比例 ,再 对 所 得 到 的 p 值 进行 FDR 校 正 
(FDR < 0.3 ), 

我 们 发 现 , 超 几 何 检 验 得 到 的 miRNA-TF 对 中 大 部 分 都 通过 了 随机 性 检验 ( TargetScan 
92%, PicTar 72% )。 经 过 超 几 何 检 验 和 随机 性 检验 后 ,我 们 在 TargetScan 和 PicTar 中 分 别 得 
到 104 对 和 916 对 miRNA-TF 对 ,将 这 些 得 到 的 miRNA-TF 对 去 重 以 后 就 可 以 构建 一 个 简单 的 
miRNA 转 录 调 控 网 络 。 

Zhou 等 人 利用 TargetScan 算 法 和 TRANSFAC 数 据 库 分 别 获 得 miRNA 和 TF 的 靶 基 因 和 集合 ， 
同时 基于 靶 基 因 的 表达 数据 ,利用 Fisher 精 确 检 验 和 Byesian 关 联 分 析 算 法 计算 任何 一 对 调 
控 子 (TF 对 、miRNA 对 和 TF-miRNA 对 ) 协同 调节 设 基 因 的 显著 性 ,结果 发 现 大量 的 TF 对 和 
miRNA 对 共享 靶 基 因 , 同 时 ,基于 调控 子 间 共享 靶 基 因 分 析 , 识 别 了 一 些 TF-miRNA 关 联 对 ， 
它们 具有 显著 的 靶 基 因 重 春 , 上 暗示 了 这 些 TF 和 miRNA 在 基因 调控 过 程 中 具有 相似 的 功能 。 

基因 表达 数据 资源 : 具有 相同 或 者 相似 表达 模式 的 基因 功能 相似 ,因此 ,一 些 研究 通过 
构建 共 表达 网 络 来 预测 基因 的 功能 。TF 和 miRNA 通 过 其 靶 基因 行使 功能 ,所 以 ,基于 两 类 调 
控 子 的 靶 基 因 表 达 相似 性 ,识别 TF 和 miRNA 关 联 是 可 行 的 。Su 等 人 利用 Pearson 相 关系 数 计 
算 TF 和 miRNA 靶 基因 的 表达 模式 相似 性 ,基于 相似 的 靶 基 因 表 达 模 式 构 建 了 TF-miRNA 模 
块 ( module )。 结 合 TF-miRNA 关 联 模块 和 TF 的 motif 扫 描 方法 ， 最 终 构 建 了 基因 调控 网 络 ,网 
络 包括 TF、miRNA 基因 以 及 转录 调控 和 转录 后 调控 关系 。 

上 述 的 方法 基于 靶 基 因 或 者 基于 表达 数据 识别 了 TF-miRNA 关 联 ,然而 这 些 方 法 并 不 
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能 明确 TF-miRNA 的 因果 关系 。 相 对 于 miRNA 转 录 后 调节 TF 的 表达 而 言 ,如 何 识别 TF 调节 
miRNA 的 转录 要 更 加 复杂 和 困难 一 些 。 原 因 在 于 绝 大 多 数 miRNA 的 初始 转录 本 是 未 被 注释 
的 ,因此 ,无 法 直接 从 数据 库 中 获得 TF 在 miRNA 上 的 绑 定 。 为 了 揭示 miRNA 的 转录 和 识别 
TF 调节 的 miRNA 关 系 , 需 要 开发 有 针对 性 的 方法 识别 miRNA 上 游 的 调控 元 件 。 最 常用 的 方 
法 是 基于 motif 扫 描 , 在 miRNA 前 体 上 游 的 一 定 范围 区 间 内 (如 2kb、5kb 或 者 10kb ) 寻找 TF 的 
motif 富 集 。 如 果 miRNA 上 游 选 定 区 间 内 出 现 特定 TF 的 motif, 则 将 这 个 TF 作为 该 miRNA 的 预 
测 调控 子 , 即 这 个 TF 能 够 激活 该 miRNA 的 转录 。 这 种 TF-miRNA 转 录 调 控 模 式 在 基因 调节 
中 发 挥 作用 。 如 图 10-10 所 示 , A 图 中 p53 同时 激活 mir-122a 和 下 游 靶 基因 CCNG1 的 转录 , 同 
时 mir-122a 靶 向 结合 CCNG1 的 3” UTR ,抑制 CCVG7 的 翻译 或 者 降解 其 mRNA ,这 个 调控 模式 
中 p53 和 mir-122a 对 下 游 靶 基因 CCNG1 显 示 相 反 的 调节 效应 , p53 转录 激活 mir-122a 关 系 在 
控制 CCMG7 的 表达 中 显示 出 抵消 性 地 作用 方式 。 研 究 发 现 这 种 不 一 致 的 TF-miRNA 调 控 结 
构 对 于 维持 细胞 中 一 些 关键 蛋白 的 稳 态 具有 重要 的 作用 。 此 外 ,有 研究 将 这 种 不 一 致 调控 
模式 称 为 一 种 缓冲 机 制 , p53 和 mir-122a 共 同 作用 于 下 游 靶 基因 能 够 有 效 地 缩短 应 答 延 迟 ， 
进而 产生 有 效 的 噪音 缓冲 ,以 及 精确 的 识别 和 维持 细胞 的 稳定 状态 。 另 一 种 调控 模式 如 图 
10-10 中 B 图 所 示 , p53 调控 mir-106a 的 转录 和 抑制 RB1 的 转录 ,同时 RB1 是 mir-106b 的 靶 基 
因 ,说 明 p53 和 mir-106a 协 同 作用 于 RB7 的 表达 。 其 中 , p53 调节 mir-106a 转 录 表 现 为 一 致 性 
地 抑制 RB7 基 因 ,这 种 调控 模式 在 基因 表达 调控 网 络 中 起 促进 作用 。 








图 10-10 p53 诱导 的 miRNA 转 录 调 控 环 


大 量 证 据 表明 染色 质 状态 能 够 介 导 调控 信号 和 DNA 通 道 等 。 研 究 者 们 在 分 析 染 色 质 
状态 过 程 中 发 现 ,特定 组 蛋白 标记 可 以 准确 地 刻画 基因 组 上 的 调控 元 件 , 如 启动 子 、 增 强 
子 、 绝 缘 子 ,而 这 些 调控 元 件 与 TF 的 绑 定 及 转录 的 起 始 、 延 伸 密切 相关 。 例 如 ,基因 组 上 
明显 的 H3K4me3 信 号 标志 着 基因 的 转录 起 始 , 这 类 信号 主要 分 布 在 基因 的 启动 子 区 域 ,而 
H3K27me3 标 志 着 基因 的 转录 抑制 , 它 倾 向 于 分 布 在 基因 组 上 的 失 活 区 域 。 因 此 ,目前 除了 
在 miRNA 前 体 上 游 一 定 区 域内 直接 扫描 TF 的 motif 算 法 ,许多 研究 者 利用 全 基因 的 单个 组 蛋 
白 标 记 或 者 整合 多 个 特定 组 蛋白 标记 来 系统 地 识别 基因 组 上 的 调控 元 件 ,如 miRNA 的 启动 
子 结构 。 这 类 方法 相 比 前 面 的 方法 , 它 的 优势 在 于 利用 了 新 一 代 测 序数 据 ( CHIP-Seq ) 检测 
的 组 蛋白 标记 ,能 够 更 加 精确 地 定位 TF 的 绑 定位 点 。 此 外 , CHIP-Seq 检 测 的 组 蛋白 标记 谱 
对 于 基因 组 注释 ,染色 质 状态 检测 及 关联 基因 活性 的 确定 提供 了 可 靠 的 分 析 方法 。 这 种 方 
法 能 够 预测 特定 细胞 条 件 下 处 于 激活 状态 的 调控 元 件 和 它 所 作用 的 靶 基 因 , 从 而 能 够 检测 
到 具有 活性 的 调控 关系 。 同 时 ,利用 CHIP-Seq 检 测 的 特定 TE 的 全 基因 绑 定 图 谱 , 将 TF 的 绑 
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定 信和 号 映射 到 预测 的 miRNA 的 活性 启动 子 上 ,从 而 检测 到 该 细胞 条 件 下 激活 的 TF-miRNA 调 
控 关系 。 例 如 Mason 等 人 利用 鼠 类 多 个 细胞 系 (包括 胚胎 干细胞 和 成 体 细胞 ) 中 检测 的 全 基 
因 H3K4me3 信 和 号 识别 了 miRNA 的 启动 子 。 基 于 CHIP-Seq 检 测 的 4 个 核心 TFs( OCT4、SOX2、 
NANOGHE, TCF3 ) 的 绑 定 图 谱 预 测 了 具有 显著 富 集 TF 绑 定位 点 的 miRNA 启 动 子 ,发 现 4 个 
TF 共同 作用 于 胚胎 干细胞 中 高 表达 的 mir-290-295 徐 的 启动 子 ,进而 激活 了 该 miRNA 簇 的 
转录 。 同 时 OCT4、SOX2、NANOG 和 TCF3 还 激活 下 游 信号 通路 和 转录 调控 通路 中 的 一 些 重 
要 和 蛋白。 结果 表明 在 鼠 胚 胎 干细胞 的 发 育 分 化 过 程 中 , miRNA 参 与 调节 了 核心 的 转录 调控 
网 络 。 如 图 10-11 所 示 , OCT4、SOX2 、NANOG 和 TCF3 直 接 作 用 于 下 游 Lefty1 和 Lefty2 的 启动 
子 , 这 两 个 基因 都 在 胚胎 干细胞 中 呈现 高 表达 状态 。Mir-290-295 簇 的 启动 子 上 也 显著 富 
集 0CT4、SOX2、NANOG 和 TCF3 的 绑 定 ,同时 , 它 在 转录 后 靶 向 基因 Leftyl1 和 Lefty2。 因 此 ， 
胚胎 干细胞 中 的 核心 TF 促进 了 Leftyl1 和 Lefty2 的 表达 。 同 时 在 转录 后 水 平 , 一 组 被 核心 TF 激 
活 的 活性 miRNA 通 过 与 基因 3”UTR 结 合 进而 微调 这 些 信 号 通路 中 的 蛋白 质 表达 。 这 个 TF- 
miRNA 调 控 结构 与 上 面 的 不 一 致 性 调节 模式 相似 , 它 同 样 能 够 维持 胚胎 干细胞 环境 的 稳 态 ， 
同时 TF 和 miRNA 对 下 游 靶 基因 的 协同 调控 模式 更 加 细致 地 揭示 了 胚胎 干细胞 中 介 导 其 增殖 
和 分 化 的 复杂 作用 机 制 。 
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图 10-11 miRNA 参 与 胚胎 干细胞 的 核心 调控 环 路 


二 、miRNA 功 能 协同 网 》》 


miRNA 与 miRNA 之 间 的 协同 作用 ,是 最 近 几 年 才 逐 渐 被 人 们 所 关注 的 科研 方向 。 与 不 
同 基因 之 间 的 相互 作用 一 样 ,不 同 的 miRNA 在 功能 上 同样 有 着 相当 多 的 联系 ,人 们 也 正在 努 
力 地 尝试 将 其 全 面 \ 准 确 地 刻画 出 来 。 而 通过 网 络 这 样 一 种 直观 \ 可 视 的 方式 ,将 相互 之 间 
存在 联系 的 miRNA 以 “ 边 ” 的 形式 连接 起 来 ,从 而 构建 出 miRNA 的 协同 网 络 , 显 然 是 比较 容 
易 为 人 们 所 接受 的 手段 之 一 。 事 实 上 ,目前 对 miRNA 协 同 作用 的 研究 所 采用 的 方法 ,往往 也 
正 是 通过 构建 miRNA 协 同 网 络 来 进行 数据 分 析 和 结果 描述 。 

由 于 单个 miRNA 所 对 应 的 靶 点 通常 很 多 ,往往 有 几 十 其 至 数 百 个 ,因此 许多 不 同 的 
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miRNA 之 间 都 存在 着 大 量 相同 的 靶 点 。 再 结合 “生物 体内 存在 大 量 的 共 表 达 的 miRNA” 这 
一 现象 ,人 们 自然 就 会 猜测 : 不 同 miRNA 之 间 是 否 存在 某 种 功能 上 的 联系 ? 进而 又 会 想到 : 
调控 同一 基因 的 不 同 miRNA 之 间 是 否 存 在 着 某 种 协调 的 机 制 ,使 得 它们 能 够 共同 作用 以 维 
持 基 因 的 正常 表达 水 平 ? 答案 是 肯定 的 。 得 益 于 miRNA 的 敲 除 、 转 染 方法 ,大 量 的 miRNA 
Ri ER ( BFE YL ) 实 验 都 显示 出 : 大 多 数 的 单一 miRNA 的 异常 ,很 难 真正 影响 到 细胞 或 生物 的 
表 型 , 即 单一 miRNA 的 异常 对 于 表 型 的 直接 作用 往往 是 微乎其微 的 。 人 们 推测 这 种 情况 
正 是 由 于 miRNA 的 功能 宛 余 性 造成 的 。 单 个 基因 往往 被 大 量 的 miRNA 同 时 调控 ,所 以 单一 
miRNA 的 异常 ,很 难 真正 影响 到 某 个 特定 靶 向 基因 的 表达 。 因 此 ,寻找 那些 对 同一 生物 学 功 
能 同时 起 作用 的 miRNA 的 重要 性 就 凸现 出 来 了 。 只 有 将 这 些 miRNA 同 时 考虑 进去 ,人 们 才 
能 更 确切 的 了 解 某 一 特定 miRNA 的 异常 对 某 种 表 型 的 影响 有 多 大 。 以 某 种 疾病 为 例子 , 疾 
病状 态 下 的 差异 表达 miRNA 很 多 ,然而 只 有 了 解 那些 对 疾病 表 型 真正 起 作用 的 一 个 或 几 个 
miRNA ,才能 从 miRNA 调 控 的 角度 上 更 加 明确 该 疾病 的 发 病 机 制 , 并 针对 性 的 设计 出 更 有 效 
的 治疗 方案 。 这 一 切 都 基于 人 们 对 于 miRNA 之 间 协 同 作用 的 深入 了 解 ,同时 也 正 是 人 们 对 
miRNA 的 协同 作用 进行 深入 研究 的 意义 所 在 。 

目前 ,在 分 析 miRNA 的 协同 作用 时 ,有 两 种 比较 常见 的 思路 。 传 统 的 思路 是 在 miRNA 的 
表达 谱 这 一 层面 上 进行 研究 ,分 析 在 表达 上 具有 一 定 联系 的 miRNA 是 否 共同 参与 某 一 生物 
学 过 程 ; 而 后 , 随 着 人 们 对 miRNA 靶 基因 研究 的 逐渐 深入 ,人 们 又 可 以 从 miRNA 的 靶 基 因 的 
功能 与 联系 这 一 角度 ,对 miRNA 间 的 功能 联系 也 进行 一 定 程度 上 的 描述 和 人 解释。 由 于 从 表 
达 水 平 的 层面 对 miRNA 的 功能 联系 进行 分 析 , 更 加 类 似 于 传统 的 表达 谱 分 析 , 所 以 当 Xu 等 人 
着 手 构建 miRNA 的 协同 网 络 时 ,就 是 从 不 同 miRNA 的 共同 靶 基 因 是 和 否 具 有 功能 一 致 性 这 一 
角度 入 手 的 ,从 而 能 够 较为 全 面 的 刻画 出 miRNA 间 的 协同 关系 ,并 对 miRNA 间 的 协同 作用 进 
行 更 为 深入 的 阐述 。 在 本 小 节 我 们 从 一 个 基础 的 例子 入 手 ,简要 的 分 析 以 共同 的 靶 基 因为 
基础 ,构建 miRNA 协 同 网 络 的 过 程 。 

【 例 10-2 ] 基 于 共同 靶 基 因 构 建 miRNA 协 调 网 络 

数据 : 在 构建 miRNA 协 同 网 络 时 ,对 于 最 基本 的 ,基于 共同 靶 基 因 的 方法 来 说 ,我 们 需要 
3 种 数据 : miRNA 集 、mRNA 集 以 及 它们 的 靶 向 关系 。 

网 络 构建 : 在 构建 网 络 时 ,我 们 先 构 建 一 个 miRNA 和 mRNA 的 连接 矩阵 。 即 分 别 以 
mRNA 和 miRNA 为 矩阵 的 行 和 列 , 以 1 和 0 分 别 描述 对 应 的 miRNA 和 mRNA 是 否 存在 靶 向 关 
系 。 当 然 , 如 果 你 采用 了 可 以 给 出 靶 向 关系 权重 的 miRNA 郭 预测 算法 ,我 们 仍然 可 以 用 立 值 
的 形式 将 这 种 权重 新 划分 为 1 和 0, 也 可 以 根据 需要 直接 使 用 这 个 权重 来 组 成 连接 矩阵 。 如 
果 我 们 称 这 个 矩阵 为 矩阵 4 ,那么 4 和 其 转 置 4 相 乘 ,就 得 到 了 一 个 新 的 , 行 和 列 均 为 miRNA 
的 矩阵 C, 以 描述 miRNA 与 miRNA 之 间 是 否 有 共同 的 靶 基 因 以 及 共同 靶 基 因 的 个 数 (或 者 权 
重 总 和 ) 是 多 少 。 这 一 矩阵 也 可 以 用 下 式 表示 : 

C; = 44a ( 10-4) 


其 中 , Cx 表 示 矩 阵 C 中 任意 一 对 miRNA 7 和 /所 对 应 的 值 ; fede ue KP A 0-4 
部 基因 ; 4x 和 4 分 别 表示 对 于 任意 的 基因 1, miRNAj 和 和 k 是 否 与 其 存在 靶 向 关系 ,或 这 种 关系 
的 强度 是 多 少 。 而 对 于 所 有 Ci 不 为 0 的 miRNA 对 ,我 们 可 以 将 其 连接 起 来 并 构成 一 个 初级 的 
miRNA 协 同 网 络 。 诚 然 ,具有 相同 靶 基 因 的 miRNA 对 都 有 相互 协同 作用 的 可 能 ,但 对 于 不 同 
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的 miRNA 对 来 说 ,这 种 可 能 性 的 差异 是 很 大 的 。 接 下 来 ,我 们 要 做 的 就 是 以 某 种 规则 ,在 这 
个 大 的 协同 网 络 中 挑选 协同 关系 更 强烈 的 miRNA 对 所 形成 的 子 网 ,或 者 说 将 大 网 中 关系 较 
弱 的 miRNA 对 删除 。 

统计 量 和 效 值 的 选取 : 显然 ,为 了 衡量 miRNA 对 互 作 关系 的 强 弱 , mi RN AX zz [8] c [a] 48 
基因 的 数目 或 权重 之 和 g 是 最 容易 想到 的 统计 量 (图 10-12 )。 对 于 那些 至 少 含有 q 个 共同 部 
基因 (或 者 共同 的 靶 基 因 权 重 总 和 达到 g ) 的 miRNA 对 来 说 ,我 们 就 可 以 将 其 连接 起 来 ; 而 共 
同 靶 基 因数 小 于 4 的 miRNA 对 的 协同 关系 将 被 删除 。 这 样 我 们 就 可 以 构建 出 一 个 具有 和 较 强 
协同 关系 的 miRNA 协 同 网 络 。 我 们 的 下 一 个 目标 就 是 找 出 "最 优 ” 的 %* ,以 满足 不 同 的 需求 。 
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图 10-12 4 统计 量 示意 图 


在 这 个 例子 中 ,采用 了 保护 网 络 中 的 hub 节 点 (连通 度 较 高 的 节点 ) 的 思想 来 对 gx 进行 
优化 。 我 们 知道 随 着 4 值 的 增加 , miRNA 协 同 网 络 将 乏 渐变 得 稀 玻 和 “破碎 "。 如 果 我 们 定 
义 “ 网 络 碎片 数 ” 即 不 联通 子 网 数 为 N 的 话 , 随 着 g 的 增加 , N 的 值 也 将 渐渐 升 高 。 然 而 , 随 着 
4 的 增加 , N 的 变化 速度 并 非 是 恒定 的 。 在 N 变 化 最 剧烈 时 ,说 明 大 量 的 具有 较 高 联通 度 的 节 
点 的 边 都 被 破坏 了 , 才 导致 了 网 络 整体 联通 性 的 剧烈 下 降 。 我 们 可 以 定义 此 时 的 4 值 为 最 优 
值 g*, 它 代表 了 大 量 的 与 高 连通 度 节点 相连 的 边 的 g 值 。 为 了 求 出 g*, 我 们 可 以 尝试 不 同 的 
9 以 给 出 N 和 4 的 关系 ,进而 拟 合 出 N 和 4 的 方程 。 基 于 这 个 方程 , 按 .全 N, 求 导 即 可 得 出 我 们 

9 





所 需要 的 gx 值 。 此 时 ,在 “破碎 ”的 miRNA 协 同 网 络 中 ,我 们 就 可 以 找到 一 个 最 大 的 ,或 几 个 
较 大 的 子 网 用 于 后 续 研 究 了 。 

当然 ,这 是 一 种 最 直接 的 选取 统计 量 和 浆 值 的 方法 。 大 量 结合 其 他 数据 的 方法 都 已 经 
逐渐 被 人 们 采纳 了 。 比 如 我 们 在 构建 统计 量 的 时 候 ,完全 可 以 加 入 靶 基 因 本 髓 的 功能 信息 
(使 用 基因 的 功能 注释 方法 )。 即 ,我 们 在 考虑 miRNA 对 的 共同 靶 基 因 时 ,仅仅 考虑 那些 具有 
相同 功能 的 基因 群 。 如 果 一 对 miRNA 的 共同 靶 基 因 的 功能 完全 不 同 , 即 便 它 们 的 4 值 很 大 也 
不 会 被 认为 是 具有 协同 关系 的 。 事 实 上 ,无论 多 复杂 的 miRNA 协 同 网 络 构建 方法 ,其 根本 的 
区 别 也 无 非 是 在 这 一 步 构建 不 同 的 统计 量 , 并 选取 合适 的 阔 值 而 已 。 还 有 很 多 可 行 的 思路 
能 够 用 于 统计 量 和 阔 值 的 可 供 人 们 选择 ,甚至 不 需要 加 入 新 的 信息 。 比 如 在 选取 g#* 的 时 候 ， 
是 否 可 以 考虑 到 随机 情况 下 9 与 N 的 关系 ”事实 上 我 们 要 做 的 也 正 是 将 那些 假 的 、 弱 的 协同 
关系 剔除 。 那 么 这 些 关 系 随 着 9 的 增加 而 减少 的 速率 和 真实 协同 关系 的 速率 显然 是 不 同 的 ， 
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那么 由 此 产生 的 N 的 增加 速率 也 是 不 同 的 ,因此 ,根据 随机 情况 下 q-N 曲 线 与 真实 情况 下 g-N 
曲线 的 差别 ,我 们 同样 可 以 找 出 更 优 的 q*。 由 于 方法 较为 复杂 ,这 里 就 不 再 详细 叙述 了 , 仪 
供 有 兴趣 的 读者 参考 。 

最 后 需要 注意 的 是 ,在 实际 的 工作 中 人 们 往往 是 将 靶 基 因 信 息 和 miRNA 表 达 信 息 联 
合 起 来 考虑 的 。 我 们 可 以 应 用 特定 状态 (比如 癌症 ) 下 的 表达 谱 建 立 特定 条 件 下 的 miRNA 
协同 网 络 。 虽 然 这 种 做 法 不 能 显示 出 miRNA 普 遍 存在 的 功能 联系 ,但 它 更 有 针对 性 的 描述 
了 特定 情况 中 miRNA 的 复杂 调控 和 协同 关系 。 在 深入 了 解 这 一 疾病 状态 ,并 找 出 关键 性 的 
miRNA 群 的 过 程 中 , 它 给 人 们 带 来 了 巨大 的 方便 。 此 外 ,还 有 很 多 的 思路 和 方法 都 可 以 应 用 
于 构建 miRNA 的 协同 网 络 ,比如 考虑 靶 基因 的 表达 或 功能 等 。 对 于 这 样 一 个 新 兴 的 科研 方 
向 来 说 ,还 有 大 量 的 问题 需要 人 们 去 解决 ,还 有 无 数 的 难关 等 竺 着 人 们 去 攻克 。 

[ 例 10-3 ] 利用 TargetScan 预 测 的 误 基 因数 据 构 建 miRNA 功 能 协同 调控 网 络 并 分 析 疾 病 
miRNA 的 拓扑 性 质 

数据 准备 : 构建 miRNA-miRNA 功 能 协同 调控 网 络 需 要 三 种 类 型 数据 : miRNA 一 gene 调 控 关 
系数 据 、 基 因 功 能 注释 数据 、 蛋 白质 互 作 数 据 。 其 中 miRNA 调 控 数据 来 自 TargetScan5.1, 下载 了 
保守 和 非 保 守 靶 点 数据 。 本 文 认为 context score 和 -0.3 才 是 潜在 的 靶 点 ,获得 了 185773 条 调控 关 
系 ,涉及 676 个 miRNA 和 15 829 个 基因 。 和 蛋白 质 互 作 数据 来 自 HPRD( HPRD_Release 8_070609 ), 
这 里 我 们 只 分 析 最 大 组 分 。 预 处 理 以 后 ,最 大 组 分 包含 8556 个 蛋白 ,33 762 个 互 作 。 基 因 的 生 
物 过 程 功能 (简称 BP ) 注释 数据 来 自 Gene Ontology 数 据 库 , 下 载 地 址 : http: //www.geneontology.org， 
时 间 2009-11。 依 据 前 人 的 研究 成 果 , 我 们 只 考虑 BP 中 那些 位 于 第 四 层 或 者 更 深层 次 的 节点 。 

构建 miRNA-miRNA 功 能 协同 调控 网 络 : 当 我 们 对 数据 预 处 理 后 ,就 可 以 整合 这 三 种 类 型 
的 数据 来 识别 miRNA 功 能 协同 调控 对 ,图 10-13 表 述 了 我 们 方法 的 流程 。 首 先 ,对 每 个 miRNA 
对 ,我 们 将 它们 共 调 控 的 靶 基 因 作 为 一 个 靶 点 子 集 ,然后 识别 这 个 靶 点 子 集 中 候选 的 功能 模块 ， 
这 些 候选 功能 模块 的 寻找 是 通过 在 GO 中 BP 本 体 论 的 功能 富 集 实现 的 。 累 积 超 几何 分 布 被 用 
来 计算 该 靶 基 因子 集 在 所 有 被 考虑 的 BP 功能 类 上 的 功能 富 集 程度 。 当 miRNA 对 至 少 调控 一 个 
候选 功能 模块 时 ,我 们 用 蛋白 质 互 作 网 络 中 两 个 拓扑 特征 来 过 滤 出 功能 模块 ,限制 如 下 : i ) 每 
个 靶 基 因 到 模块 中 其 他 靶 基 因 的 最 小 距离 都 不 大 于 给 定 的 阔 值 D1 ; ii) 模块 的 特征 路 径 长 度 
要 小 于 D2 并 且 和 随机 情况 比较 要 显著 小 。 这 里 ,我 们 产生 了 1000 个 随机 网 络 。 作 为 严格 的 对 
照 ,随机 网 络 是 通过 保持 每 个 蛋白 的 直接 互 作 邻 居 不 变 ,通过 用 边 扰动 的 方法 实现 。 总 之 ,功能 
模块 需要 满足 三 个 条 件 : 被 miRNA 对 共 调 控 , 富 集 在 同一 个 GO 功能 类 中 ,在 和 蛋白质 互 作 网 络 中 
距离 近 。 这 里 ,如 果 一 对 miRNA 显 著 共 调控 至 少 一 个 功能 模块 ,我 们 就 定义 这 两 个 miRNA 是 功 
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图 10-13 功能 协同 miRNA 对 的 识别 流程 
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能 协同 作用 的 。 最 后 ,所 有 miRNA 协 同 作 用 对 形成 miRNA-miRNA 功 能 协同 调控 网 络 ( miRNA- 
miRNA functional synergistic network, MFSN )。 其 中 ,节点 表示 miRNA , 边 表示 它们 之 间 的 协同 作用 。 

miRNA-miRNA 功 能 协同 调控 网 络 的 结构 特征 分 析 : 理论 上 讲 ,在 所 考虑 的 miRNA 对 
( 676*675/2 ) 和 3894 生 物 过 程 类 之 间 共 有 888 416 100 个 可 能 的 衡量 功能 富 集 的 P 值 。 当 给 定 
功能 富 集 的 显著 性 水 平 P<0.05 时 ,我 们 检测 到 miRNA 对 和 候选 功能 模块 之 间 的 472 573 调 控 关 
系 。 经 过 蛋白 质 互 作 网 络 中 两 个 拓扑 限制 和 特征 路 径 的 显著 性 水 平 设 为 P<0.001,13687 功 能 
模块 被 473 个 miRNA 协 同调 控 , 其 中 一 对 miRNA 可 能 调控 多 个 不 同 的 功能 模块 。 这 些 miRNA 间 
有 2937 个 非 元 余 的 协同 模式 。 从 图 10-14 我 们 发 现 几 乎 所 有 的 miRNA 都 连接 在 一 起 ,并 且 有 
一 个 小 的 半径 ( 2.8691 ) 我们 用 复制 模型 产生 随机 网 络 ,这 些 网 络 的 平均 半径 和 真实 的 类 似 
( 2.8722 + 0.1332 ), 也 是 小 世界 网 络 。 但 是 MFSN 网 络 还 展现 出 紧密 的 邻居 关系 ,平均 聚 类 系数 达 
到 0.2747, 比 随机 网 络 的 显著 高 (0.0684 + 0.0151 )。 这 是 因为 miRNA 的 直接 邻居 , 即 功能 协同 对 
象 ,也 倾向 有 协同 作用 。 小 世界 网 络 的 这 种 紧密 的 邻居 特征 是 特别 有 意义 的 ,因为 它 能 用 来 预 
测 新 的 协同 作用 ,就 像 以 前 预测 蛋白 质 互 作 中 那样 。 另 外 ,在 MFSN 中 ,只 有 一 些 miRNA 有 相对 
多 的 协同 作用 ,大 部 分 miRNA 只 有 很 少 的 协同 邻居 。 检 验 这 个 MFSN 网 络 的 度 分 布 发 现 ,该 分 布 
服从 斜率 为 0.7902( 拟 合 优 度 R2=~0.9264 ) 的 寡 分 布 , 表 明 MEFSN 是 一 个 无 尺度 (scale-free ) 网 络 。 

我 们 分 析 了 MFSN 网 络 的 模块 和 社区 特性 。 这 里 ,我 们 定义 一 个 miRNA 功 能 协同 模块 为 
一 个 最 大 完全 子 图 (clique )。MFSN 中 所 有 的 模块 (或 社区 ) 都 有 独一无二 的 miRNA 组 成 ,但 
是 也 允许 同一 个 miRNA 或 者 同一 条 边 出 现在 多 个 模块 中 。 我 们 统计 了 每 种 k 值 对 应 的 模块 
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图 10-14 MFSN 网 络 图 和 度 分 布 
A. 表 示 MFSN, 其 中 每 个 节点 代表 一 个 miRNA, 边 代表 协同 作用 ; B. 表示 度 分 布 


数目 和 模块 中 miRNA 占 所 有 miRNA 的 累积 分 布 。 结 果 发 现 , 随 着 k 值 的 增加 ,模块 的 数目 急 
剧 下 降 。 总 共有 77.51% 的 miRNA 至 少 包含 在 一 个 模块 中 。 

我 们 解释 这 种 现象 可 能 是 下 面 原因 导致 的 , 即 miRNA 完 成 某 种 特定 调控 时 ,是 以 小 的 团 
的 方式 完成 的 ,而 不 是 单个 发 挥 作用 或 者 以 大 模块 的 方式 。 因 为 同一 个 家 族 的 miRNA 倾 器 有 
相似 的 功能 或 者 参与 同 种 疾病 ,我 们 进一步 调查 是 否 同一 家 族 的 miRNA 倾 向 出 现在 同一 模块 
或 者 社区 中 。 一 共有 70 个 miRNA 家 族 至 少 包含 两 个 miRNA ,其 中 60% 的 家 族 完 全 被 包含 在 至 
少 一 个 模块 中 ,在 社区 中 这 个 比例 高 达 65.71%。 因 此 ,同一 家 族 的 miRNA 确 实 倾向 功能 协同 。 

总 之 , miRNA 功 能 协同 调控 作用 相互 交织 ,形成 一 个 复杂 的 miRNA 功 能 协同 调控 网 络 。 该 网 
络 具 有 小 世界 和 无 尺度 的 特性 。 因 此 ,类 似 于 许多 大 的 网 络 , MFSN 的 无 尺度 特征 暗示 着 该 网 络 
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并 不 是 一 个 随机 网 络 ,而 是 被 一 个 核心 的 组 织 原则 集合 刻画 ,这 些 原则 能 够 使 其 区 别 于 随机 连 
接 的 网 络 。 已 有 研究 证 明 一 个 干扰 在 小 世界 网 络 中 散播 所 花费 的 时 间接 近 于 理论 上 任何 有 相 
同 点 和 边 的 网 络 中 所 用 时 间 的 最 小 值 。 因 此 ,小 世界 网 络 允 许 miRNA 协 同 作用 能 快速 响应 干扰 。 

疾病 miRNA 的 拓扑 特征 : 目前 越 来 越 多 的 研究 给 出 了 特定 疾病 相关 的 miRNA ,有 些 科 研 
院 所 构建 了 专门 的 数据 库 收集 这 些 关 联 信息 ,例如 哈尔滨 工业 大 学 开发 的 miR2disease 和 清 
华 大 学 开发 的 HMDD 数 据 库 。 我 们 基于 miR2disease 数 据 库 提供 的 miRNA 疾 病 信 息 做 了 初步 
探讨 。 基 于 疾病 中 miRNA 差 异 表 达 的 检测 方法 ,我们 获得 两 类 不 同 可 信和 度 的 疾病 数据 。 一 
类 是 我 们 从 数据 库 中 所 能 获得 的 全 部 疾病 miRNA 信 息 ; 另外 一 类 是 前 面 数据 的 子 集合 ,由 那 
些 低 通 量 实验 证 实 的 疾病 miRNA 组 成 ,比如 “ ‘Northern blot" fll “qRT-PCR”; £i A ES — 
类 包括 236 个 miRNA ,它们 参与 了 108 种 疾病 ,第 二 类 包括 164 个 miRNA ,涉及 94 种 疾病 。 

我 们 分 析 疾 病 miRNA 在 miRNA-miRNA 协 同调 控 网 络 中 的 拓扑 性 质 ,如 图 10-15。 我 

















B Epithelial ovarian cancer 
ChPath=2.1429 
e. e —9 
全 A 99 
ee P d 
oe. 9 ^e 
E at 
979 
C | — Pegsle-06 P=5.75e-05 we 
Z 10° 3 E 
也 | 
三 | $ i - i 
E | Type 2 diabetes 
= | ChPath=1 
Z 10' 
= 
5 
8 
8 
v f 
High confidence data All disease data 








图 10-15 疾病 miRNA 的 拓扑 特征 
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们 发 现 同 一 疾病 的 miRNA 在 协同 调控 网 络 中 距离 和 随机 比较 显著 的 近 , 暗 示 着 同一 疾病 的 
miRNA 调 控 相 同 或 者 相似 的 功能 ,存在 聚集 现象 。 比 如 , 卵 梨 癌 的 上 皮 细 胞 中 用 低 通 量 实验 
已 经 识别 14 疾 病 相 关 miRNA ,我 们 发 现 其 中 有 8 个 miRNA 至 少 由 一 条 功能 协同 调控 ,它们 的 
特征 路 径 为 2.1429。 另 外 ,结果 发 现 miRNA 协 同调 控 的 数目 和 其 调控 功能 模块 的 类 型 是 显 
著 正 相关 的 , 且 疾 病 miRNA 有 更 多 的 协同 作用 。 因 此 ,疾病 miRNA 有 更 高 的 功能 复杂 性 。 疾 
病 miRNA 还 倾向 定位 在 大 的 miRNA-miRNA 协 同调 控 模 块 中 ,特别 是 这 些 模块 的 交友 处 , 表 
明 疾 病 miRNA 倾 向 是 协同 调控 网 络 的 全 局 中 心 , 对 不 同 或 相似 生物 过 程 起 到 衔接 作用 。 归 
纳 出 疾病 miRNA 在 协同 作用 网 络 中 的 拓扑 特征 可 以 开拓 我 们 对 miRNA 致 病 机 制 的 理解 ,还 
可 以 用 来 预测 新 的 疾病 miRNA。 

总 之 , miRNA-miRNA 功 能 协同 调控 网 络 不 仅 可 以 用 来 深入 理解 miRNA 的 转录 后 调控 模 
式 , 还 为 探索 疾病 miRNA 的 性 质 提 供 了 一 个 新 的 视角 。 





三 .miRNA 调 控 不 同 分 子 网 络 》》) 


命 是 存储 并 加 工 信 息 的 复杂 过 程 ,以 往 孤 立地 研究 单个 基因 及 其 表达 的 变化 往往 不 
E Kaa Be ae aem 这 也 是 分 子 生物 学 家 在 从 基因 组 序列 到 和 蛋白质 结构 
层面 获得 了 海量 的 数据 之 后 , 面 对 信 息 整 合 感到 迷茫 的 真正 原因 。2003 年 , Bray 提 出 了 关于 
生物 分 子 网 络 整合 的 建议 。 聪 明 的 科学 家 从 社会 科学 那里 借鉴 了 用 来 处 理 数 据 的 “网 络 ” 
来 系统 地 探究 生命 现象 。 简 而 言 之 ,活体 细胞 就 是 一 个 网 络 , 细 胞 中 的 一 切 分 子 都 存在 着 普 
遍 的 生物 联系 ,细胞 与 细胞 之 间 也 存在 着 信息 的 传递 ,因而 构成 了 复杂 的 生物 分 子 网 络 系 
统 。 依 据 中 心 法 则 ,我 们 知道 RNA 只 是 负责 将 遗传 信息 从 基因 组 传递 给 和 蛋白质。 而 最 近 发 
现 的 非 编码 miRNA 却 挑战 了 这 一 法 则 , 它 被 认为 是 信息 流 的 调控 者 之 一 ,并 且 有 越 来 越 多 的 
证 据 显 示 miRNA 的 调节 作用 涉及 生命 过 程 的 方方面面 。 

我 们 已 经 知道 通过 靶 预 测算 法 得 到 的 miRNA 的 靶 基 因 种 类 相当 广泛 ,包括 信号 蛋白 、 代 
谢 酶 .骨架 和 蛋白 和 转录 因子 等 。miRNA 和 靶 基 因 的 多 样 性 和 丰富 性 暗示 着 miRNA 在 和 它 的 靶 
基因 形成 复杂 网 络 的 同时 ,必然 和 其 他 的 分 子 网 络 (如 转录 调控 网 络 ) 存 在 复杂 的 交互 作用 。 
因此 , miRNA 通 过 调控 分 子 网 络 行使 功能 的 观点 是 合理 的 ,我 们 有 必要 从 系统 水 平 上 去 解析 
miRNA 是 如 何 参 与 细胞 调控 过 程 的 。 

基因 调控 网 络 .信号 网 络 .蛋白 互 作 网 络 和 代谢 网 络 是 目前 研究 比较 广泛 的 四 种 分 子 网 
络 。 其 中 ,基因 调控 网 络 描述 转录 因子 和 编码 蛋白 基因 间 的 调控 关系 ,其 包含 细胞 中 全 部 生 
物 过 程 的 基因 调控 信息 。 而 蛋白 互 作 网 络 则 包含 了 蛋白 信息 及 其 物理 互 作 的 信息 。 和 蛋白 互 
作 圳 括 了 从 基本 的 细胞 机 制 (如 DNA 合 成 蛋白 复合 物 ) 到 细胞 信号 涉及 的 蛋白 复合 物 等 信 
息 。 简 而 言 之 ,基因 组 范围 的 蛋白 互 作 网 络 包 含 了 细胞 生命 过 程 涉及 的 全 部 蛋白 互 作 信息 。 
因此 ,我 们 将 基因 调控 网 络 和 和 蛋白 互 作 网 络 划 分 为 “一 般 网 络 ”。 

miRNA 通 过 靶 向 基因 的 3”UTR 对 靶 基 因 进 行 功能 调控 。 因 此 ,将 miRNA 的 靶 基 因 映 射 
到 和 蛋白 互 作 网 络 (中 间 需 要 先 将 靶 基 因 同 蛋白 对 应 ) 或 是 转录 调控 网 络 ,就 可 以 将 miRNA 及 
其 靶 基 因 形 成 的 网 络 同 二 者 联系 起 来 。 对 于 蛋白 互 作 网 络 ,截至 目前 ,酵母 ,大肠 埃 硕 菌 及 
其 他 细菌 线虫. 果 蝇 和 人 类 均 已 进行 了 大 规模 的 蛋白 互 作 检测 ,使 得 蛋白 互 作 数 据 相 对 完 
善 ,所 以 对 网 络 中 miRNA 的 转录 后 调控 机 制 的 探讨 也 最 为 细致 。 研 究 显示 即使 不 限定 蛋白 
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互 作 网 络 及 靶 数 据 来 源 ,也 能 够 得 出 与 以 往 类 似 的 结果 , 即 转录 后 调控 复杂 度 、 互 作 复 杂 度 
”及 功能 复杂 度 是 正 相关 的 。 网 络 中 的 HUB 和 蛋白 更 倾向 被 miRNA 调 控 , 互 作 的 蛋白 倾向 具有 
类 似 的 转录 后 调控 模式 。 单 个 miRNA 的 靶 基 因 模 块 化 不 是 很 明显 ,但 加 入 靶 基 因 的 互 作 邻 
居 后 模块 化 显著 。 而 对 于 miRNA 簇 ,同样 可 以 找到 其 显著 调控 的 功能 模块 。 

对 于 转录 调控 网 络 ,其 和 蛋白 互 作 网 络 明 显 不 同 的 是 ,全 基因 组 范围 内 的 基因 调控 数据 
还 不 完善 ,依靠 低 通 量 实验 获得 数据 比较 少 。 因 此 只 能 在 有 限 的 数据 中 分 析 miRNA 的 调控 
规律 ,然后 再 分 析 预 测 得 到 的 转录 因子 在 启动 子 结合 位 点 的 数据 ,寻找 miRNA 的 调控 规律 。 
结果 显示 两 者 有 较 高 的 一 致 性 。 即 基因 拥有 的 转录 因子 结合 位 点 越 多 ,这 个 基因 的 转录 后 
调控 机 制 越 复杂 ,其 越 倾向 被 较 多 的 miRNA 靶 向 。 反 过 来 ,基因 上 miRNA 的 靶 点 数目 越 多 ， 
其 倾向 于 拥有 越 多 的 转录 因子 结合 位 点 。 也 就 是 说 miRNA 的 调控 数目 和 转录 因子 结合 位 点 
的 数目 是 显著 正 相 关 的 。 换 句 话 说 ,人 类 基因 组 中 ,转录 后 水 平 上 miRNA 的 调控 复杂 度 和 转 
录 水 平 上 转录 因子 对 基因 的 调控 复杂 度 是 正 相 关 的 , 即 转录 调控 越 复杂 的 基因 ,其 转录 越 需 
要 频繁 开启 , 越 有 可 能 具有 时 空 特异 性 表达 ,因此 其 转录 越 需要 频繁 关闭 , 即 越 复杂 的 转录 
后 调控 。 另 外 , 当 我 们 对 同时 具有 转录 调控 及 转录 后 调控 复杂 性 的 基因 进行 功能 富 集 (数据 
来 自 G0 数 据 库 ) 时 ,结果 显著 富 集 在 和 发 育 相 关 的 生物 过 程 。 由 于 人 类 和 路 齿 类 生物 中 关 
于 基因 的 正 向 或 负 向 转录 调控 关系 缺乏 ,我 们 现在 还 不 能 分 析 转 录 调 控 网 络 的 局 部 模块 化 。 

代谢 网 络 和 信号 网 络 ,通常 被 称 为 “特异 细胞 网 络 ” ,其 描述 某 些 特定 的 细胞 活动 中 信息 
流 的 行走 方式 。 细 胞 代谢 网 络 包含 所 有 代谢 反应 和 代谢 流 ,而 信号 网 络 则 包含 信号 流 和 信 
号 传导 过 程 涉及 的 生化 反应 。 通 常 这 两 种 信息 间 的 交互 用 线性 通路 表示 ,比如 代谢 通路 和 
信和 号 通路 。 代 谢 通路 是 紧密 交织 的 ,因此 代谢 流 可 以 通过 多 条 通路 进行 传递 。 且 有 些 代谢 
产物 是 被 多 条 通路 共享 的 ,因此 可 以 通过 一 条 或 者 多 条 通路 得 到 某 种 代谢 产物 。 信 和 号 网 络 
涉及 细胞 内 和 细胞 间 的 交流 以 及 信和 号 蛋白 对 信息 的 处 理 方式 。 其 作为 高 级 交流 系统 能 够 完 
成 诸如 生长 ,细胞 存活 和 发 育 等 功能 。 

2006 年 , Cui 等 把 miRNA 靶 数据 进行 信号 网 络 映射 ,揭示 了 miRNA 调 控 人 类 信号 网 络 的 
一 般 规 律 。 通 过 信和 号 蛋白 类 别 的 划分 ,依据 各 类 别 中 被 miRNA 靶 向 的 信号 蛋白 的 比例 ,分 析 
miRNA 靶 向 的 倾 问 性 。 结 果 显示 miRNA 倾 向 于 靶 向 信和 号 流下 游 的 核 蛋 白 成 分 (大 部 分 为 转 
录 因 子 )。 而 通过 功能 将 信号 蛋白 进行 分 类 ,继而 研究 miRNA 靶 向 的 倾向 性 时 , Cui 等 主要 探 
讨 了 连接 蛋白 ,无 酶 活性 ,通过 和 上 游 及 下 游 信 号 蛋白 紧密 互 作 来 实现 信号 传递 ,结果 显示 ， 
miRNA 倾 向 于 靶 向 高 连接 组 (下 游 多 于 4 个 信号 蛋白 ), 并 通过 调控 连接 蛋白 下 游 成 分 的 浓度 
而 精确 响应 各 种 刺激 ,这 和 miRNA 的 高 时 空 表 达 特 异性 也 是 一 致 的 。 

网 络 模 体 ,作为 信号 网 络 中 一 种 普遍 存在 具有 简单 结构 的 网 络 单元 ,不 同 的 网 络 模 体 代 
表 不 同 的 信号 传递 模式 。 利 用 Mfinder 程 序 提取 网 络 中 三 到 四 个 节点 的 模 体 ,依据 模 体 中 被 
miRNA 靶 向 的 蛋白 的 比例 研究 miRNA 靶 向 的 倾向 性 。 结 果 显示 , miRNA 倾 向 靶 向 正 向 调控 
的 模 体 。 正 向 调控 的 模 体 中 ,任何 成 分 的 噪声 或 者 波动 都 容易 被 放大 ,从 而 使 生物 系统 的 状 
态 发 生 转 换 。 而 miRNA 的 负 向 调控 能 够 增强 其 对 这 种 放大 作用 的 过 滤 或 者 缓冲 ,从 而 精确 
调 定 和 维持 细胞 稳 态 。 网 络 模 体 通过 共享 的 信号 蛋白 相互 连接 组 成 的 更 大 网 络 结构 PR 
网 络 主题 (theme )。miRNA 的 功能 预测 可 以 通过 寻找 与 其 紧密 关联 的 网 络 主题 实现 。 而 大 
部 分 网 络 主题 和 五 个 细胞 机 器 (包括 转录 机 器 、 翻 译 机 器 .分 弯 机 器 活力 机 器 和 电荷 机 器 ) 
中 的 一 个 或 者 更 多 相关 。 但 这 些 机 器 的 共享 蛋白 , 却 不 倾向 于 被 miRNA 调 控 。 由 于 其 功能 
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较为 基础 ,表达 水 平 相 对 稳定 ,不 需要 过 多 的 调节 ,因此 避免 miRNA 的 调控 。 
对 于 代谢 网 络 ,许多 代谢 产物 可 以 被 不 同 的 代谢 通路 共享 ,使 得 各 通路 间 形 成 复杂 的 交 
互 。 其 调控 的 复杂 度 涉 及 转录 转录 后 和 翻译 水 平 三 个 层面 。Tibiche 等 系统 分 析 了 人 类 代 
谢 网 络 中 miRNA 的 调控 模式 。 用 KEGG 数 据 库 中 获得 的 人 类 代谢 通路 数据 以 反应 为 中 心 的 
模式 来 刻画 代谢 网 络 , 即 有 向 图 的 模式 。 然 后 将 TargetScan 预 测 得 到 的 miRNA 的 靶 数 据 进行 
代谢 网 络 映射 。 如 果 反应 只 包含 一 个 酶 有 被 miRNA 靶 向 , 则 认为 该 反应 被 miRNA 调 控 ; 若 包 
含 多 个 酶 则 需要 跟随 机 (随机 扰动 miRNA 和 酶 之 间 的 靶 向 关系 ) 进行 比较 得 出 miRNA 对 该 
反应 的 调控 是 否 具 有 显著 性 来 确定 该 反应 是 否 被 miRNA 调 控 。 同 信号 网 络 不 同 的 是 ,网 络 
节点 的 分 类 测度 。 对 于 代谢 网 络 ,我 们 将 节点 分 为 上 游 节 点 切割 点 ( cut point, CP )、hub 节 
点 (定义 为 网 络 中 前 5% 出 度 和 入 度 和 大 的 节点 )、 中 间 节 点 (intermediate nodes, ITN ) 和 下 游 
节点 (图 10-16 )。 通 过 计算 各 类 型 节点 中 被 miRNA 靶 向 的 百分比 (对 于 包含 多 个 酶 的 反应 还 
需要 计算 其 百分比 同 随 机 比较 是 否 具 有 显著 性 ) 来 确定 其 是 否 被 miRNA 革 向。 结果 显示 ， 
miRNA 显 著 地 不 s 却 显著 富 集 在 hub 和 CP 两 类 型 节点 上 。 同 信号 网 络 类 似 ,代谢 网 
谢 流 , 其 对 应 某 种 特定 物质 的 代谢 过 程 。 代 谢 流 可 以 分 为 两 
种 结构 方式 ; IRE E ER DS 分 又 型 和 汇集 型 (图 
10-17 )。 这 三 种 模式 的 总 数 可 以 通过 枚 举 网 络 中 连接 的 两 个 或 者 三 个 反应 的 组 合 得 到 。 然 
后 ,根据 该 模型 是 否 被 miRNA 靶 向 而 对 其 进行 分 类 ,然后 分 别 计算 三 种 模型 跟随 机 比较 是 显 
著 的 出 现 还 是 显著 的 缺失 。 结 果 表 明 ,线性 模型 代谢 流 都 被 miRNA 靶 向 , 同 随机 比 其 是 显著 
出 现 的 。 这 表示 代谢 网 络 中 某 些 局 部 反应 区 域 被 miRNA 显 著 调控 。 另 外 ,无 论 是 汇集 型 还 
是 分 叉 型 ,不 包含 miRNA 靶 点 的 模式 是 在 网 络 中 显著 出 现 的 ,至 少 包含 2 个 靶 点 的 模式 在 网 
络 中 是 显著 缺失 的 。 对 于 miRNA 调 控 倾向 性 的 研究 , 则 显示 , miRNA 广 泛 调 控 基 本 的 代谢 通 
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路 ,如 氨基 酸 合成 /降解 和 某 些 脂 类 代谢 通路 ,暗示 着 miRNA 在 细胞 代谢 中 作用 的 重要 性 。 

把 没有 入 度 的 点 称 为 上 游 节点 , 即 该 反应 的 底 物 不 是 其 他 任何 代谢 反应 的 产物 ; 同样 
的 ,把 没有 出 度 的 点 称 为 下 游 节点 , 即 反 应 的 产物 不 是 其 他 任何 反应 的 底 物 。 删 除 后 能 增加 
网 络 组 分 数 的 点 称 为 切割 点 ,而 拥有 较 高 出 度 和 入 度 加 和 的 点 称 为 hub 节 点 。 网 络 中 剩余 的 
所 有 节点 称 为 中 间 节 点 。 

线性 模式 即 一 个 反应 的 产物 是 上 且 只 是 另 一 个 反应 的 底 物 ,文中 仅 考 虑 两 个 或 者 三 个 反 
应 的 线性 模式 ; 对 于 支 化 模式 ,进一步 分 为 汇聚 型 , 即 两 个 反应 的 产物 是 另外 一 个 反应 的 底 
物 ; 分 又 型 则 表示 一 个 反应 的 产物 是 另外 两 个 反应 的 底 物 。 

【 例 10-4 ] 基 于 miRNA- 靶 点 失调 网 络 的 拓扑 特征 优化 前 列 腺 癌 风 险 miRNA 

这 里 ,我 们 提出 一 种 猜想 ,我 们 认为 除了 表达 异常 的 miRNA 和 疾病 相关 ,另外 一 类 
miRNA 也 应 该 值得 注意 , 即 对 靶 基 因 调 控 发 生 异 常 的 miRNA。miRNA 是 通过 对 靶 基 因 进 行 
调控 而 完成 生物 学 功能 的 ,如 果 miRNA 对 靶 基 因 进 行 异 常 调控 ,很 有 可 能 会 导致 癌症 的 发 
生 。 因此 ,这 里 我 们 借助 miRNA 在 miRNA- 靶 基因 失调 网 络 中 的 拓扑 特点 来 优化 前 列 腺 癌 风 
险 miRNA。 

1. 数据 准备 ”构建 miRNA-mRNA 失 调 网 络 需 要 三 种 类 型 数据 : miRNA 一 gene 调 控 
关系 数据 .前 列 腺 癌 中 miRNA 和 mRNA 表 达 谱 数据 。 其 中 , miRNA 一 gene 调 控 关系 数据 是 
TargetScan ( 5.1 版 本 ), miRanda( miRBase 数 据 库 中 下 载 )_PicTar 和 DIANA-microT 预 测 结果 的 
并 集 。 表 达 谱 数据 是 Ambs 等 人 检测 的 ,从 GEO 数 据 库 下 载 获得 ,其 中 miRNA 表 达 谱 对 应 的 
GEO 编 号 为 CSE8126, mRNA 表达 谱 数 据 对 应 的 CEO 编 号 为 CSE6956。 这 里 ,我 们 只 关注 同时 
检测 mRNA 和 miRNA 表 达 的 样本 , 共 75 个 ,其 中 60 个 是 原 发 性 的 前 列 腺 癌 样 本 ,15 个 是 作为 
对 照 的 前 列 腺 瘤 旁 组 织 ,此 处 认为 是 正常 的 样本 。 我 们 对 mRNA 的 表达 谱 利 用 robust multi- 
array average( RMA ) 算 法 进行 标准 化 处 理 ,而 对 miRNA 则 直接 从 网 上 下 载 已 经 进行 过 标 化 处 
理 的 数据 。 

2. 构建 miRNA-mRNA 失 调 网 络 我 们 逐次 判断 每 对 有 表达 的 miRNA 和 它 的 靶 基 因 之 
间 的 调控 关系 在 前 列 腺 癌 样 本 和 正常 比较 是 否 发 生 显著 失调 (图 10-18 )。 首 先 , miRNA 和 
mRNA 的 表达 谱 被 分 成 两 部 分 ,分 别 是 肿瘤 样本 的 表达 谱 和 正常 样本 的 表达 谱 。 其 次 ,对 每 
对 miRNAi 和 半点 j, 分 别 计算 它们 在 正常 样本 和 肿瘤 样本 中 的 皮尔 森 相 关系 数 ,并 观察 两 者 
之 间 的 差异 ,公式 如 下 : 
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其 中 M 和 7 分 别 表示 的 是 miRNA ;和 靶 点 /的 表达 值 。C 是 癌症 样本 , 而 4 是 正常 的 前 列 腺 
样本 。zc 和 尹 分 别 表 示 癌 症 和 正常 样本 的 个 数 。M_ ,志和 1M T, 是 miRNA PRU jd Hog 
和 正常 样本 中 的 平均 表达 值 ,而 Sw_ Sr 和 Sh Sr 分 别 表 示 两 种 类 型 样本 中 miRNA 和 靶 基 因 
表达 值 的 标准 差 的 乘积 。 这 个 Dys 测 度 可 以 用 来 估计 miRNA 和 靶 基因 在 两 种 类 型 样本 (肿瘤 
和 正常 ) 中 相关 性 的 失调 程度 。 
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为 了 确定 是 否 两 类 样本 中 miRNA 和 靶 基 因 之 间 的 失调 是 显著 的 ,我 们 随机 扰乱 所 有 的 
样本 标签 10 000 次 并 重新 计算 值 。 这 样 ,我 们 对 每 对 miRNA 和 靶 基 因 的 关系 可 以 计算 一 个 
经 验 概率 。 然 后 ,我 们 用 对 所 有 的 调控 关系 的 概率 值 进 行 多 重 校正 检验 , 当 FDR 0.01 时 这 
对 关系 才 被 认为 是 显著 失调 的 。 

我 们 识别 了 前 列 腺 癌 背 景 下 的 3758 条 显著 的 miRNA- 靶 基因 失调 关系 ,涉及 274 个 
miRNA 和 2511 个 基因 。 这 些 失调 关系 并 不 是 孤立 存在 的 ,而 是 彼此 交错 形成 了 一 个 复杂 的 
miRNA-mRNA 失 调 网 络 , 这 里 称 之 为 miRNA- 靶 基因 失调 网 络 (miRNA target-dysregulated 
network , 简称 MTDN )。 所 以 ,我 们 可 以 融合 上 面 已 知 疾病 miRNA 的 拓扑 性 质 来 优化 候选 的 
癌症 标记 。 

3. 优化 前 列 腺 癌 风 险 miRNA ”基于 疾病 miRNA 在 协同 网 络 中 拓扑 性 质 的 分 析 , 我 们 发 
现 了 疾病 miRNA 是 以 模块 的 方式 行使 功能 的 ,并 且 疾 病 miRNA 倾 向 于 位 于 模块 的 交 闪 处 ， 
能 够 更 加 便利 信息 的 交流 。 我 们 发 现 构 建 的 前 列 腺 癌 背 景 下 miRNA-mRNA 失 调 网 络 也 是 
无 尺度 的 。 我 们 搜索 miR2disease 等 疾病 miRNA 数 据 库 和 阅读 文献 获得 了 37 个 已 证 实 的 前 
列 腺 癌 miRNA ,将 其 作为 真 阳性 miRNA 集 合 ; 另外 ,我 们 将 在 正常 前 列 腺 组 织 中 表达 最 低 的 
50 个 miRNA 作 为 真 阴性 miRNA 和 集合 。 结 果 发 现 这 两 类 miRNA 的 拓扑 性 质 的 确 存在 显著 的 差 
异 : 疾病 miRNA 有 较 多 的 失调 丢 基 因 , 其 中 很 多 靶 基因 都 是 和 其 他 前 列 腺 瘤 miRNA 共 同 失调 
的 ; 还 发 现 它 们 有 较 多 的 协同 调控 miRNA ,其 中 前 列 腺 癌 miRNA 占 的 比例 也 显著 高 于 其 他 
miRNA。 这 暗示 着 在 前 列 腺 癌 中 miRNA 有 聚集 现象 。 进 一 步 地 ,我 们 利用 这 些 拓扑 性 质 及 
表达 的 改变 为 特征 构建 了 SVM 分 类 器 ,用 五 倍 交叉 证 实 进行 评价 ,结果 表明 该 分 类 器 准确 性 
达到 了 0.8872, 要 明显 优 于 单单 利用 miRNA 表 达 来 预测 候选 miRNA( 图 10-19 )。 然 后 我 们 利 
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用 训练 好 的 分 类 器 来 预测 新 的 前 列 腺 癌 miRNA , 发 现 很 多 已 知 的 前 列 腺 癌 miRNA 都 排 在 前 
面 (图 10-19 )。 通 过 对 得 分 比较 高 的 未 知 前 列 腺 癌 miRNA 进 行 功能 注释 ,发现 这 些 miRNA 的 
功能 和 前 列 腺 癌 的 发 生 有 密切 关系 。 例 如 , hsa-miR-203 失 调 的 靶 基 因 富 集 了 Hedgehog 信 号 
通路 细胞 分 化 和 细胞 增殖 等 。 
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图 10-19 基于 拓扑 特性 构建 的 疾病 miRNA 分 类 器 评价 
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四 、 miRNA 调 控 的 网 络 模 体 > > 


miRNA 是 内 源 性 的 非 编 码 RNA ,在 转录 后 水 平 上 对 其 靶 基因 的 表达 起 负 向 调节 作用 , 进 
而 参与 多 种 生物 学 过 程 , 如 发 育 、 分 化 .生长 .代谢 \ 凋 亡 、 信 号 通路 甚至 癌症 的 发 生 和 发 展 。 
很 多 研究 发 现 转 录 因 子 和 miRNA 高 度 共 表 达 , 表 明 转 录 因 子 介 导 的 转录 调控 和 miRNA 介 导 
的 转录 后 调控 经 常 是 高 度 协同 的 。 为 了 更 好 地 探究 转录 因子 和 miRNA 的 协同 效应 ,刻画 基 
因 组 规模 的 全 局 调控 网 络 是 非常 重要 的 。 以 网 络 为 媒介 可 以 有 效 地 分 析 转 录 因 子 和 miRNA 
是 以 怎样 的 联合 调控 方式 调节 基因 表达 ,从 系统 水 平 上 揭示 基因 表达 的 调控 机 制 ,而 不 是 仅 
仅 从 单个 基因 的 水 平 。 通 过 对 调控 网 络 的 分 析 , 很 多 人 研究 发 现在 网 络 中 存在 着 一 些 显著 富 
集 的 调控 结构 ,进而 网 络 模 体 的 概念 应 运 而 生 。 网 络 模 体 ( network motif ) 被 定义 为 网 络 中 
较 小 的 调控 回路 或 者 结构 模式 , 它 在 真实 网 络 中 出 现 的 次 数 统计 学 上 显著 高 于 在 随机 网 络 
中 出 现 的 次 数 。 转 录 调 探 网 络 的 网 络 模 体 首先 在 细菌 和 酵母 中 被 发 现 ,提供 了 调控 网 络 中 
更 局 部 的 信息 。 目 前 ,一 些 miRNA 调 控 的 网 络 模 体 已 经 被 实验 数据 证 实 ,例如 ,在 果 蝇 的 眼 
青 细胞 中 ,转录 因子 Yan 抑 制 miR-7 的 转录 , 反 过 来 miR-7 也 可 以 在 转录 后 水 平抑 制 转 录 因 子 
Yan 的 翻译 ,从 而 Yan 与 miR-7 形 成 了 表达 水 平 的 互相 排斥 状态 ,在 EGFR 信和 号 触发 的 Yan 降 解 
状态 下 ,使 得 miR-7 与 Yan 的 表达 模式 发 生 了 一 个 稳定 的 差异 ,进而 启动 了 果 蝇 眼 细 胞 感光 
器 的 分 化 。 在 人 类 粒 细胞 分 化 以 及 线虫 外 阴 细 胞 中 也 发 现 了 类 似 的 环 路 。 即 在 不 同 物种 的 
基因 调控 网 络 里 面 找到 了 相同 的 模 体 类 型 ,说 明 网 络 模 体 是 网 络 趋同 进化 的 结果 ,并 且 在 细 
胞 内 执行 重要 的 生物 学 功能 。 

对 于 miRNA 参 与 的 复杂 网 络 而 言 ,包括 miRNA 在 内 的 三 个 节点 或 四 个 节点 所 对 应 的 网 
络 模 体 的 研究 较为 广泛 。 比 如 , Yu 等 人 在 人 类 的 调控 网 络 中 ,探究 所 有 可 能 的 至 少 包括 一 
个 miRNA 和 一 个 转录 因子 的 三 个 节点 的 子 图 ,发 现 了 17 个 miRNA 调 控 的 网 络 模 体 。 寻 找 网 
络 模 体 的 方法 是 将 网 络 中 的 某 一 种 感 兴 趣 的 调控 模式 与 随机 网 络 相 比较 ,如 果 这 个 调控 模 
式 显著 的 富 集 到 真实 的 网 络 ,说 明 这 种 调控 模式 在 真实 的 网 络 中 起 着 重要 的 作用 , 即 为 网 络 
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模 体 。 具 体 说 来 ,针对 一 个 复杂 有 向 网 络 而 言 , 对 整个 网 络 进行 遍历 ,寻找 含有 n 个 节点 的 子 
图 (目前 的 研究 主要 集中 在 n = 3,4 ), 并 记录 每 个 子 图 在 网 络 中 出 现 的 次 数 ,然后 将 实际 的 网 
络 随 机 化 ,采用 在 实际 网 络 中 寻找 子 图 的 方法 遍历 该 随机 网 络 ,并 记录 遍历 随机 网 络 得 到 的 
7 个 节点 子 图 的 出 现 频数 ,如 果实 际 网 络 中 出 现 的 次 数 显著 比 它 在 随机 网 络 中 出 现 的 次 数 
大 ,那么 这 样 的 n 节 点 的 子 图 模式 就 是 一 种 网 络 模 体 。 那 么 对 于 随机 化 的 方法 ,为 了 提高 随 
机 网 络 与 实际 网 络 的 可 比 性 ,往往 在 随机 化 实际 网 络 的 时 候 保 持 实 际 网 络 中 节点 的 出 度 和 
AEDE, 

目前 ,很 多 研究 中 都 发 现 了 几 种 广泛 存在 的 网 络 模 体 。 

1. 前 馈 环 ( Feed-forward Loop) 即 上 游 转 录 因 子 调控 一 个 靶 基 因 表 达 的 同时 ,还 作用 
于 下 游 的 一 个 miRNA ,然后 与 这 个 miRNA 协 同调 控 下 游 对 基因 的 表达 。 也 就 是 上 游 的 转录 
因子 调控 下 游 的 贰 基因 是 通过 两 个 途径 同时 控制 ,一 个 途径 是 转录 因子 直接 作用 于 靶 基 
因 ,另外 一 个 途径 是 通过 调节 一 个 miRNA ,间接 的 作用 于 靶 基 因 。 按 照 直接 途径 和 间接 途径 
对 靶 基 因 效 应 的 一 致 性 与 否 ,把 前 馈 环 被 分 为 两 种 , 即 工 型 miRNA 前 馈 环 ( Inecoherent feed- 
forward ), 与 下 型 前 馈 环 ( coherent feed-forward ) (图 10-20 )。 

在 I 型 miRNA 前 馈 环 中 ,上 游 转录 因子 激活 (或 抑制 ) 靶 基因 的 同时 激活 (或 抑制 ) 一 个 
miRNA 的 转录 ,在 转录 后 水 平 上 抑制 这 个 靶 基 因 的 翻译 过 程 。 研 究 发 现在 miRNA 表 达 的 细 
胞 类 型 中 , 型 miRNA 前 馈 环 可 以 启动 这 个 miRNA 靶 向 的 基因 ,使 其 处 于 高 表达 水 平 。 这 表 
明 miRNA 在 型 前 馈 环 中 对 其 靶 向 的 蛋白 起 到 微调 控 的 作用 ,维持 蛋白 的 表达 在 一 个 正常 
的 功能 范围 。 因 为 真 核 细胞 中 基因 的 转录 经 常 是 处 在 一 个 噪音 环境 中 的 ,所 以 相应 的 mRNA 
的 拷贝 会 受到 一 定 的 波动 , 除 此 之 外 ,其 他 的 一 些 因素 比如 mRNA 的 降解 和 蛋白 质 的 翻译 也 
会 随机 的 波动 。 更 重要 的 是 ,这 些 波动 会 适当 的 沿 着 调控 网 络 蔓延 开 来 ,如 上 游 转录 因子 的 
波动 会 造成 下 游 基因 的 表达 产生 波动 。 那 么 在 工 型 前 馈 环 中 ,任何 导致 上 游 转录 因子 偏离 
其 稳 态 的 干扰 信号 ,会 沿 着 调控 网 络 以 相同 的 干扰 趋势 引起 下 游 对 基因 和 miRNA 的 表达 偏 
离 ,此 时 由 于 工 型 前 馈 环 中 上 游 的 转录 因子 调控 丢 基因 的 两 个 途径 的 效应 是 相反 的 ,所 以 会 
使 得 有 miRNA 介 导 的 间接 途径 在 另 一 个 相反 的 方向 去 缓冲 外 界 干扰 ,维持 蛋白 表达 免 受 波 
动 。 例 如 ,图 10-20 所 示 在 果 蝇 细胞 中 转录 因子 Atonal 激活 KE spl ) 同 时 激活 miR-7 抑 制 E spl ) 
的 翻译 ,缓冲 外 界 干扰 ,维持 果 蝇 眼睛 正常 发 育 ,进而 决定 了 感觉 器 官 的 命运 。 

了 [型 miRNA 前 馈 环 ( coherent feed-forward ) 是 转录 因子 通过 直接 途径 和 间接 途径 控制 
其 靶 基 因 的 表达 , 且 这 两 个 途径 方向 是 一 致 的 , 即 靶 基因 的 表达 同时 被 激活 或 抑制 。 这 种 网 
络 模 体 可 以 使 细胞 有 效 激活 (或 抑制 ) 那 些 在 转录 水 平 上 漏 掉 的 靶 基 因 。 例 如 , c-Myc/E2F/ 
miR-17-92 环 路 (图 10-20 中 Example ), 转 录 因 子 c-Myc 启 动 细胞 周期 进程 ,需要 激活 E2F 转 录 
因子 家 族 以 及 mir-17-92 簇 ,同时 被 激活 的 E2F 家 族 还 可 以 作用 于 mir-17-92 灸 的 启动 子 区域 
进一步 激活 其 表达 。 而 且 这 个 开 型 miRNA 前 馈 环 被 谋 入 到 一 个 更 加 复杂 的 环 路 当中 ,因为 
mir-17-92 簇 成 熟 后 还 可 以 反 过 来 抑制 E2F 家 族 ,这 个 环 路 是 一 个 I 型 前 馈 环 和 一 个 荆 型 前 
馈 环 各 套 的 一 个 结果 ,揭示 了 c-Myc 同时 激活 E2F 家 族 的 转录 和 抑制 其 翻译 ,从 而 精密 地 控 
制 了 分 化 信和 号 。 

2. miRNA 参 与 的 反馈 环 (feedback loop) 如 图 10-20 所 示 , 被 分 为 coherent 反 馈 环 和 
incoherent 反 馈 环 。Coherent 反 馈 环 是 miRNA 与 转录 因子 之 间 对 彼此 的 调节 效应 是 相同 的 ( 即 
互相 抑制 或 者 互相 激活 ), 导 致 了 转录 因子 与 miRNA 相 互 排斥 的 表达 (互相 抑制 ), 或 者 是 表 
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达 水 平 的 双 稳 态 (互相 激活 ), 当 一 个 瞬时 的 信号 改变 了 这 种 模 体 的 表达 状态 , 当 信号 消失 
后 模 体 的 状态 不 会 恢复 , 即 产生 了 不 可 北 的 状态 改变 。 如 图 10-20 所 示 , 在 人 类 的 造血 干 细 
胞 中 , mir-233 和 NFI-A 形 成 了 一 个 coherent 反 馈 环 控制 粒 细胞 性 分 化 。 在 未 分 化 的 细胞 中 ， 
mir-233 处 于 低 表达 , NFI-A 处 于 高 表达 状态 ,然而 在 视 黄 酸 信 号 作用 下 , mir-233 表 达 水 平 
上 调 并 借助 mir-233 和 NFI-A 形 成 的 coherent 反 馈 环 导致 NFI-A 受 抑制 ,进而 削弱 了 NFI-A 对 
mir-233 的 抑制 作用 ,最 终 促 进 了 骨髓 系 细胞 的 分 化 。Incoherent 反 馈 环 ,转录 因子 和 miRNA 
以 相反 的 方式 互相 调控 ,功能 是 微调 基因 的 表达 并 且 维 持 转录 因子 和 miRNA 表 达 水 平 的 相 
对 稳定 。 在 Incoherent 反 馈 环 依赖 于 一 个 输入 信号 ,使 得 miRNA 与 转录 因子 的 表达 呈现 振荡 
状态 。 例 如 ,在 线虫 外 阴 细 胞 中 , Notch 信 和 号 蛋白 可 以 激活 miR-61 的 转录 ,而 miR-61 反 过 来 
抑制 Noteh 信 和 号 蛋白 的 翻译 过 程 ,从 而 稳定 了 外 阴 细 胞 的 状态 (图 10-20 )。 
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图 10-20 miRNAK 5 fjcoherent s] MH, .incoherent 前 镇 环 与 反馈 环 示意 图 及 其 实例 
红色 圆圈 代表 转录 因子 ,绿色 的 圆圈 代表 miRNA, 蓝 色 的 圆圈 代表 靶 基 因 


3. 被 miRNA 调 控 的 反馈 环 ( regulated feedback loop) 如 图 10-21 所 示 ,这 种 网 络 模 体 由 
两 个 转录 因子 和 一 个 miRNA 组 成 ,其 中 两 个 转录 因子 互相 调控 ,并 且 共 同 受到 一 个 miRNA 的 
靶 向 。 这 种 环 路 可 以 将 一 个 短暂 的 刺激 信和 号 传递 到 调控 环 路 之 中 ,引起 一 个 稳定 的 不 可 逆 
的 反应 状态 ,这 种 状态 对 于 与 发 育 相 关 的 调控 关系 尤其 重要 。 男 一 方面 被 miRNA 调 控 的 反 
馈 环 与 普通 的 反馈 环 相 比较 ,可 以 阻止 偶然 性 的 激活 事件 ,因此 为 发 育 过 程 提 供 一 个 稳定 的 
环境 。 

4. 混合 调控 环 和 间接 前 馈 环 ”混合 调控 环 是 由 上 述 提 到 的 模 体 相互 赃 套 得 到 的 复杂 网 
络 模 体 ,如 图 10-20 例 子 所 示 , c-Myce/E2FVmiR-17-92 环 路 ,是 由 一 个 工 型 前 馈 环 和 一 个 开 型 
miRNA 前 包 环 扔 套 得 到 的 一 个 更 加 复杂 的 环 路 。 间 接 前 馈 环 由 上 游 的 转录 因子 A 激 活 下 游 
的 一 个 转录 因子 B 去 激活 一 个 miRNA ,而 这 个 miRNA 同 时 跟 转 录 因 子 B 去 调控 靶 基 因 。 

5. 双重 的 负 反 馈 环 ( double-negative feedback) 即 一 个 miRNA 通 过 另 一 个 miRNA 参 与 
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的 途径 间接 调控 自身 的 表达 水 平 , 如 线虫 的 味觉 感受 器 分 为 两 种 ASEL 和 ASER ,分 别 分 泌 不 
同 的 化 学 受 体 来 感受 和 应 对 外 界 的 输入 ,但 是 这 两 种 感受 器 是 由 同一 种 前 体 细胞 ( ASE 神 经 
元 ) 分 化 而 来 , lsy-6 和 die-1 的 高 表达 决定 ASEL 的 稳定 状态 ; 类 似 的 mir-273 和 cog-71 的 高 表达 
决定 ASER 的 稳定 状态 。 研 究 发 现 ASE 神 经 元 细胞 分 化 命运 的 决定 是 凭借 两 个 miRNA(1lsy- 
6. mir-273 ) 和 它们 靶 向 的 转录 因子 ( die-1、cog-1 ) 所 形成 的 双重 负 反馈 环 来 完成 的 。 如 图 
10-22 所 示 , mir-273 可 以 调节 1sy-6 的 表达 是 借助 于 其 直接 靶 die-1, 同 时 1sy-6 也 可 以 通过 调节 
其 直接 靶 cog-1, 去 控制 mir-273 的 表达 , 当 一 个 外 界 的 信号 输入 到 这 个 双重 负 反 馈 环 中 ,借助 
于 双向 的 调节 使 得 这 四 个 因子 的 表达 状态 稳定 下 来 ,从 而 不 可 道 地 决定 ASE 神 经 元 细胞 的 
分 化 命运 。 总 言 之 , miRNA 被 封装 到 双重 的 负 反 馈 环 ,为 miRNA 如 何 最 终 决定 细胞 命运 提供 





了 一 个 机 制 。 
e: P ist 
| 9 


图 10-21 被 miRNA 调 控 的 反馈 环 10-22 mir 一 273 参 与 的 双重 的 负 反 馈 环 
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Section 4 miRNA Polymorphism and Complex Disease 


目前 , HapMap 计 划 在 人 类 基因 组 中 识别 了 大 约 一 亿 个 SNP 位 点 ,这 意味 着 平均 每 100 到 
300 个 碱 基 对 就 存在 一 个 SNP。 虽 然 大 部 分 SNP 处 于 一 种 沉默 状态 ,但 是 流行 病 学 研究 显示 
基因 序列 变异 与 癌症 发 病 风 险 存在 一 定 的 关联 。 这 些 多 态 通 常 以 插入 、 缺 失 、 扩 增 或 者 染色 
体 异 位 的 形式 出 现 , 当 它 们 位 于 miRNA 基 因 内 部 .加工 处 理 过 程 中 或 训 位 点 上 面 时 , 则 可 能 
影响 癌症 的 发 病 风险 .治疗 效果 以 及 预后 。SNP 作 为 人 类 基因 组 中 一 类 新 的 功能 多 态 ,不 仅 
能 够 影响 miRNA 的 生成 和 表达 ,还 能 够 影响 miRNA 与 靶 基 因 的 结合 从 而 影响 靶 基 因 的 表达 ， 
最 终 导 致 miRNA 的 功能 获得 或 缺失 。 例 如 , 若 miRNA 多 态 使 得 癌 基 因 的 表达 上 调 , 便 可 能 导 
致 肿瘤 的 发 生 。 同 时 ,目前 的 一 些 研究 也 显示 , miRNA 多 态 位 点 与 疾病 的 演进 以 及 宿主 对 药 
物 的 反应 之 间 存 在 紧密 的 关联 。miRNA 多 态 主要 划分 为 四 类 : 位 于 miRNA 基 因 内 的 多 态 ,位 
于 miRNA 靶 点 的 多 态 .miRNA 合 成 机 制 中 的 单 核 苷 酸 多 态 和 表 观 遗传 调控 的 多 态 。 


一 .miRNA 基 因 内 部 多 态 >> 


成 熟 miRNA 通 过 与 mRNA 的 3”UTR 区 域 结 合 从 而 实现 对 众多 靶 基 因 进 行 转录 后 调控 。 
新 近 的 研究 显示 , miRNA 种 子 序列 内 的 单个 碱 基 突 变 就 能 够 消除 miRNA 对 其 靶 基因 的 抑制 
作用 。 同 时 这 种 miRNA 序 列 内 的 多 态 对 miRNA 自身 的 转录 、 形 成 .输出 和 调控 也 具有 重要 
的 作用 。Matthew A.Saunders 等 人 对 人 类 474 个 miRNA 进 行 系统 分 析 时 发 现 , 其 序列 内 的 SNP 
密度 低 于 侧翼 序列 内 的 SNP 密 度 。 研 究 发 现 65 个 SNP 落 入 49 个 pre-miRNA 内 ,平均 密度 约 为 
1.3 个 SNPHkb。 研 究 人 员 通 过 对 pre-miRNA 不 同 的 功能 域 进行 划分 ,进一步 发 现 其 中 有 3 个 
SNP 落 入 了 种 子 序列 。Duan 等 人 在 研究 miRNA 基 因 内 SNP 的 分 布 时 ,也 得 到 了 相似 的 结果 。 
这 意味 着 miRNA 基 因 内 存在 SNP 多 态 。 

miRNA 生 物 合 成 的 不 同 阶段 需要 不 同 的 蛋白 和 和 蛋白 复合 物 的 参与 ,包括 RNA 聚 合 酶 I 、 
Drosha/Pasha、Exportin-5/Ran-GTP、 核 孔 复 合体 、Dicer 和 RISC 复 合 物 等 。 如 果 存 在 于 pre- 
miRNA 上 面 的 多 态 影 响 了 其 与 这 些 蛋 白 的 结合 ,那么 这 些 多 态 将 会 影响 相应 miRNA 的 生成 
或 使 得 其 表达 下 调 。 而 位 于 miRNA 基 因 内 的 多 态 则 可 以 通过 自身 或 是 参与 miRNA 形 成 的 
蛋白 来 影响 miRNA 的 合成 与 成 熟 , 从 而 导致 新 的 miRNA 的 生成 和 部 基因 的 识别 ,最 终 使 得 
miRNA 的 功能 缺失 或 是 获得 进一步 影响 疾病 易 感 性 和 药物 敏感 性 的 功能 。 基 于 目前 miRNA 
多 态 的 研究 成 果 ,我 们 将 miRNA 基 因 内 多 态 分 为 如 下 三 类 : 
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(一 ) fF pri-miRNAdnpre—miRNA & Ej Fr 7] A ÈB 


Saunders, M.A. 和 Duan 等 人 利用 生物 信息 学 的 方法 进行 研究 ,发 现在 pri/pre-miRNA 内 部 存 
在 单 核 苷 酸 多 态 。 这 些 多 态 会 影响 成 熟 miRNA 的 表达 以 及 miRNA 与 其 靶 基 因 的 结合 ,甚至 还 
会 影响 疾病 的 发 病 风险 ,同时 也 可 能 产生 新 的 miRNA。Wu M. 和 Calin G.A. 等 人 发 现 位 于 let-7e 
和 mir-16 前 体内 的 多 态 能 够 降低 其 成 熟 miRNA 的 表达 。 而 Duan 等 人 人 研究 发 现 miR-146a 的 前 体 
( pre-miRNA ) 内 存在 的 一 个 常见 SNP( rs2910164 ), 其 C 等 位 可 以 增加 miR-146a 的 表达 。Hoffman 
A.E., Tian T. 和 Peng S. 等 人 发 现 , 位 于 mir-196a-2 前 体 ( pre-miRNA ) 内 的 SNP( Rs11614913 ) 能 够 
增加 钼 患 乳腺 癌 、 肺 癌 和 胃癌 的 风险 ,特别 是 纯 合 的 CC 基因 型 多 态 。 同 时 该 多 态 还 能 够 影响 
mir-196a-2 的 成 熟 及 其 成 熟 miRNA 与 靶 基 因 的 结合 。 先 前 的 研究 显示 ,前 体 以 及 成 熟 miRNA 序 
列 内 的 变异 能 够 影响 miRNA 的 生物 合成 ,在 CC 基因 型 的 样本 中 miR-196a-2 的 表达 水 平 要 低 于 
TT 表 型 的 样本 。 在 肺癌 中 ,该 多 态 也 预示 着 一 个 较 差 的 预后 ,这 也 是 第 一 次 提出 miRNA 相 关 
联 的 SNP 与 癌症 的 演进 相关 。miR-146a 前 体会 产生 miR-146a( 正 链 ) 和 miR-146a*( 负 链 ) 两 种 
miRNA。 而 位 于 miRNA-146a 前 体 的 SNP 多 态 ( 182910164) 不 仅 会 影响 miR-146a 的 表达 ,同时 也 
会 导致 mIR-146a*C 和 miR-146a*G 两 种 miRNA 的 生成 。 该 研究 显示 , pri/pre-miRNA 内 的 多 态 
能 够 导致 新 的 miRNA 的 产生 。 通 过 新 miRNA 对 靶 基 因 的 影响 ,该 多 态 引 起 的 改变 可 能 与 多 种 
疾病 的 发 病 风险 相关 。miR-146a*C 能 够 调控 基因 PTC17 ,而 miR-146a*G 调 控 基因 JR4K1。 位 于 
该 多 态 位 点 的 C 等 位 能 够 影响 miR-146a 调 控 的 乳腺 癌 相 关 靶 基因 BRC41 和 BRC42 的 表达 。 换 
句 话说 ,该 多 态 位 点 CG 基因 型 伺 患 乳腺 癌 的 风险 要 低 于 CC 和 GG 两 种 纯 合 基因 型 。 


(=) 位 于 成 熟 的 miRNA 序 列 内 


成 熟 的 miRNA 通 过 与 nRNA 的 3”UTR 区 域 结 合 从 而 对 mRNA 进行 转录 后 调控 。 其 与 
mRNA 结合 的 区 域 包括 两 部 分 : miRNA 的 5” 端 第 2-8 个 碱 基 , 称 为 种 子 区 域 ,该 区 域 要 求 
与 mRNA 完 全 匹配 ; 种 子 区 域 附 近 的 3” 端 方向 ,允许 一 定 程度 的 错 配 , 称 为 3” 容错 区 域 
(3' MTR )。 位 于 这 两 部 分 的 miRNA 多 态 能 够 消除 .弱化 或 增强 其 对 靶 基 因 的 影响 ,还 能 产 
生 新 的 结合 靶 点 。miR-146a 内 部 的 多 态 ,消除 了 其 介 导 促 凋 亡 转录 因子 的 功能 。 

根据 miRNA 与 靶 基 因 结合 区 域 ,可 以 将 成 熟 miRNA 内 的 多 态 分 为 如 下 两 类 : 

1. 位 于 miRNA 的 5” 种 子 区 域 Saunders 等 人 的 研究 结果 显示 ,位 于 miRNA 种 子 区 域 的 多 

会 影响 miRNA 的 表达 及 其 与 靶 基 因 的 结合 。 例 如 ,位 于 miR-125a 种 子 区 域 的 多 态 显 著 的 
aie 导致 miRNA 表 达 减 少 。miR-206 通 过 靶 回 ER a 上 的 两 个 靶 点 
调节 其 表达 ,而 位 于 miR-206 种 子 区 域 的 多 态 导 致 两 个 邯 点 都 失 活 ,消除 了 其 与 原来 对 基因 
的 结合 。 理 论 上 讲 ， miRNA P DERBI ds AU LA AS FHS kA DTT EN OBS 
到 影响 ,但 是 这 需要 进一步 的 实验 证 实 。 

2. 位 于 miRNA 的 3” 容错 区 域 (3” MTR) 与 种 子 区 域 不 同 的 是 ,3” MTR 区 域 允许 一 
定 程 度 的 碱 基 错 配 。 但 是 ,这 一 区 域 存在 的 插入 、 缺 失 或 者 移 位 的 多 态 位 点 依然 可 能 会 对 
miRNA 调 控 靶 基因 这 一 过 程 产生 影响 。 有 具体 的 作用 机 制 还 有 竺 进一步 研 究 证 实 。 





=. miRNA# RASA >> 


一 般 情况 下 , miRNA 调 节 基 因 表 达 的 方式 是 与 靶 基 因 的 3” UTR 区 域 结合 ,进而 降解 靶 
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向 的 mRNA 或 者 抑制 这 个 mRNA 的 翻译 过 程 。 因 此 miRNA 靶 基因 序列 上 的 多 态 性 可 以 干 
扰 miRNA 对 靶 基 因 的 结合 事件 ,而 发 生 在 miRNA 靶 基因 序列 上 的 功能 性 多 态 位 点 就 被 定 
义 为 miRNA 靶 点 的 多 态 。 因 为 人 类 基因 组 中 基因 的 3” UTR 区 域 的 序列 保守 性 较 差 ,所 以 
与 miRNA 基 因 的 多 态 性 相 比 , miRNA 靶 位 点 具有 更 丰富 的 多 态 变 异 。 全 基因 组 关联 分 析 
( genome-wide association study, GWAS ) 发 现 , 与 编码 区 非 同 义 突变 相 比 ,调控 区 域 的 变异 更 
可 能 引起 人 类 疾病 。 由 于 miRNA 靶 点 多 态 可 能 干扰 或 破坏 miRNA 的 结合 位 点 或 者 产生 一 个 
新 的 miRNA 的 结合 位 点 ,进而 引起 靶 基 因 调 控 的 失调 ,所 以 它 能 影响 多 种 生物 学 过 程 (例如 ， 
药物 吸收 通路 代谢、 药物 抵抗 ), 并 引发 人 类 疾病 (如 乳腺 癌 、 结 肠 癌 ,糖尿 病 以 及 心血 管 疾 
病 等 )。 根 据 靶 基因 多 态 性 位 点 与 miRNA 结 合 位 点 的 位 置 关 系 , miRNA 技 点 的 多 态 性 可 以 分 
为 miRNA 结 合 位 点 上 的 多 态 性 和 miRNA 结 合 位 点 周围 的 多 态 性 。 


(一 ) miRNA 结 合 位 点 上 的 多 态 性 


成 熟 miRNA 长 约 22 个 碱 基 , miRNA 5° 未 端的 2-8 个 碱 基 被 定义 为 miRNA 的 种 子 区 域 ， 
经 常 与 靶 基 因 3”UTR 的 结合 区 域 发 生 精 确 的 互补 匹配 ,发 生 在 靶 基因 miRNA 结 合 位 点 上 的 
多 态 可 以 破坏 miRNA 对 基因 的 调控 作用 (包括 增强 或 者 减弱 miRNA 与 mRNA 的 结合 )。 例 如 
在 鲜 状 细胞 癌 (SCCHN ) 中 SNP( rs8126 T—C ) 落 入 到 了 基因 TNFAIP2 的 3 UTR 上 。 这 个 
区 域 恰好 是 miR-184 在 其 靶 基 因 TNF41P2 上 的 种 子 结合 区 域 ,就 使 得 这 个 SNP 能 够 影响 靶 基 
因 TNFAIP2 的 表达 ,改变 鳞 状 细胞 癌 的 易 感性 。miR-582 在 结肠 癌 中 表达 ,而 基因 CD86 上 的 
SNP 使 得 miR-582 与 其 结合 松散 ,因此 导致 CD86 的 表达 升 高 ,而 且 CD86 可 以 激活 炎 性 因子 
IL-4 的 表达 ,解释 了 miR-582 结 合 位 点 上 的 多 态 位 点 rs17281995 对 结 直 肠 癌 风险 的 贡献 。 除 
此 之 外 靶 基 因 结 合 位 点 上 的 多 态 也 可 能 会 产生 新 的 miRNA 结 合 位 点 ,进而 导致 mhiRNA 对 和 
基因 的 调节 发 生 紊乱 ,从 而 影响 疾病 的 发 生 与 发 展 。 在 12 万 个 已 知 的 发 生 在 基因 3”UTR 
上 的 SNP 中 , 约 有 17% 的 多 态 会 破坏 推测 的 保守 的 或 者 不 保守 的 miRNA 结 合 位 点 ,而 且 根据 
Patrocles 数 据 库 , 有 8.6% 的 多 态 会 产生 新 的 预测 的 miRNA 靶 位 点 。 


(二 ) miRNA 结 合 位 点 周围 的 多 态 性 


miRNA 靶 点 的 多 态 除 了 位 于 miRNA 与 靶 mRNA 的 结合 位 点 ,还 可 以 位 于 miRNA 结 合 位 
点 周围 的 功能 区 域 ,这些 多 态 也 会 影响 miRNA 对 靶 基 因 的 调控 作用 。 因 为 miRNA 对 靶 mRNA 
发 挥 功能 需要 和 一 些 辅助 蛋白 (比如 AGO 等 ) 共 同 作用 ,形成 RNA 诱 导 的 沉默 复合 物 ( RNA- 
induced silencing complex, RISC ) LA RRNAZ4 442A RBPs )。 此 外 , mRNA 的 3”UTR 区 域 还 
存在 着 一 些 调控 元 件 的 结合 位 点 ,这 些 元 件 包括 蛋白 或 蛋白 复合 物 、 细 胞 质 多 腺 苷 酸化 元 件 
( cytoplasmic polyadenylation elements, CPE )、 六 聚 核 车 酸 AAUAAA 等 。 例 如 mRNA 的 3” UTR 
上 存在 长 约 50 个 碱 基 的 富 含 AU 的 序列 ( ARE), ARE 与 mRNA 的 稳定 性 密切 相关 ,一 些 和 蛋白 
(比如 Dicer1 和 Agol ) 可 以 辅助 ARE 对 mRNA 的 降解 。 研 究 发 现 miR-16 可 以 与 ARE 互 补 ,这 说 
明 miRNA 可 能 会 和 ARE 顺 式 调控 元 件 相 互 作用 ,参与 控制 mRNA 的 降解 。 因 此 位 于 miRNA 
结合 位 点 附近 的 多 态 会 影响 miRNA 对 靶 基 因 的 调控 。Mishra 发 现 miR-24 结 合 位 点 下 游 位 置 
上 有 一 个 多 态 性 位 点 829( CT ), 导 致 细胞 对 甲 氨 蝶 叭 的 敏感 性 发 生变 化 。 正 常生 理 状态 
F, miR-24 可 以 结合 到 二 氧 叶酸 还 原 酶 ( DHFR ) 的 3”UTR 上 对 该 靶 基 因 的 表达 起 抑制 作 
用 ,细胞 表现 为 对 甲 氨 蝶 哈 有 较 高 的 敏感 性 。 但 是 当 该 结合 位 点 下 游 第 14 个 碱 基 发 生 突变 
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(TC ), 破 坏 了 aiR-24 与 DHFR 的 结合 ,无 法 降解 DHFR 的 mRNA ,导致 靶 基 因 二 氧 叶 酸 还 
原 酶 水 平 升 高 。 另 一 方面 , mRNA 的 3” UTR 区 域 会 形成 一 定 的 二 级 结构 。Kedde M 等 人 发 
现 RNA 结 合 蛋 白 Pumilio-1( PUM1 ) 可 以 与 基因 mm27 的 3” UTREE ,诱导 RNA 局 部 结构 的 改 
变 ,进而 增强 了 miR-211 和 miR-222 对 p27 的 3”UTR 的 接近 性 ,提高 了 miRNA 对 p27 的 有 效 抑 
制 。 研 究 表明 多 数 的 miRNA 在 3”UTR 上 的 结合 位 点 都 具有 和 较 简 单 的 二 级 结构 ,这 种 简单 的 
二 级 结构 允许 miRNA 介 导 的 RISC 复 合 物 接近 结合 位 点 并 且 发 挥 功 能 ,所 以 位 于 miRNA 革 点 
附近 的 多 态 位 点 可 能 引起 mRNA 3' UTR 二 级 结构 的 改变 ,从 而 影响 miRNA 与 靶 基 因 的 结合 。 


三 .miRNA 合 成 机 制 中 的 单 核 苷 酸 多 态 >> 


近 些 年 的 研究 使 得 人 们 对 于 miRNA 的 合成 机 制 有 了 更 多 的 了 解 。miRNA 的 合成 是 一 个 
复杂 的 生物 学 过 程 ,主要 分 为 三 个 阶段 : DNA 转 录 与 加 工 合成 pre-miRNA; pre-miRNA 转 运 出 
核 ; 剪 切 合成 成 熟 miRNA。miRNA 合 成 过 程 中 的 每 个 阶段 都 有 不 同 的 蛋白 质 参 与 其 中 ,这 些 
与 miRNA 合 成 密切 相关 的 蛋白 质 包括 DroshayDGCR8 核酸 转运 蛋白 XPOSRAN-GTP 和 Dicev 
TRBP。 因 此 ,影响 这 些 关 键 蛋 白质 表达 的 多 态 ,会 参与 调节 miRNA 的 合成 及 其 生物 学 功能 。 
本 节 主 要 讲述 在 miRNA 的 合成 机 制 中 ,不同 阶段 相关 蛋白质 的 多 态 对 miRNA 的 影响 。 

Drosha 和 DGCR8 加 工 DNA 转 录 生 成 的 pri-miRNA, 形 成 约 70 个 核酸 长 度 的 pre-miRNA。 
研究 发 现 Drosha 的 低 表达 与 癌症 的 预后 和 复发 有 密切 关系 ,然而 全 基因 组 关联 分 析 表 明 
Drosha 和 DGCR8 上 的 SNP 并 没有 显示 癌症 易 感 性 特征 。XPO5 和 RAN-GTP 介 导 了 pre-miRNA 
从 细胞 核 到 胞 质 的 过 程 , XPO5 的 异常 表达 会 影响 成 熟 miRNA 的 合成 ,进而 影响 了 许多 疾病 
的 发 生 ,发展 。 例 如 ,研究 发 现 XPO5 在 肺癌 中 频繁 下 调 ,而 在 高 级 前 列 腺 癌 样 本 中 上 调 。 由 
于 XPO5 和 RAN 参 与 miRNA 的 合成 加 工 过 程 ,所 以 这 些 基 因 上 的 SNP 会 影响 miRNA 的 稳定 性 。 
Horikawa 等 人 发 现 XPO5 上 的 SNP( rs11070 ) 增 加 了 肾 细胞 癌 的 发 病 风险 。Ryan 等 人 对 RAN 
的 SNP( rs14035 ) 研究 结果 表明 , RAN 上 的 多 态 能 够 阻 断 miRNA 的 核 转运 过 程 ,导致 miRNA 
合成 受到 抑制 。 这 个 SNP 的 祖先 等 位 位 于 miR-575 的 绑 定位 点 ,突变 体 的 形成 又 构建 了 miR- 
182* 的 绑 定 位 点 ,因此 , RAN 的 多 态 还 参与 了 了 miRNA 对 靶 基因 的 调节 过 程 。 

Pre-miRNA 转 运 出 核 之 后 ,通过 Dicer 和 TRBP 的 前 切 作 用 ,形成 成 熟 的 miRNA。 人 研究 发 
现 低 水 平 的 Dicer 与 癌症 患者 的 低 存活 率 相关 。Dicer 的 3”UTR 上 的 SNP( rs3742330 ) 能够 增 
加 黏膜 白斑 病 和 黏膜 红斑 病 的 恶化 风险 。 另 一 项 研究 的 结果 发 现 Dicer 的 单 体型 与 肾 细胞 痛 
的 存活 具有 显著 的 关联 , 单 体型 AA 和 GA 能 显著 增加 肾 细胞 癌 患 者 的 死亡 率 。Melo 的 研究 组 
识别 了 TRBP 上 的 两 个 移 码 突变 ,这 两 个 移 码 突变 诱导 产生 了 未 成 熟 的 终止 密码 子 , 进 而 使 
得 TRBP 表 达 下 降 。TRBP 参 与 调节 miRNA 合 成 中 Dicer 的 稳定 性 , 当 TRBP 表 达 降 低 时 ,会 导 
致 Dicer 不 稳定 和 miRNA 的 合成 减少 。 

RISC 参 与 指导 单 链 的 成 熟 miRNA 识 别 和 靶 mRNA 的 特定 位 点 绑 定 。 该 复合 物 中 
GEMIN3 上 的 非 同 义 SNP( rs197412 ) 的 变异 等 位 基因 降低 了 口腔 疾病 的 发 病 风险 。GEMIN3 
的 男 一 个 SNP( rs197414 ) 与 膀胱 癌 和 食管 癌 的 高 发 病 风险 显著 相关 。 因 此 , GEMIN3 的 变异 
能 够 影响 miRNA 的 内 稳 态 ,进而 调节 细胞 的 信号 通路 。 

最 近 , 研 究 发 现 肿瘤 抑制 基因 p53 参与 miRNA 的 合成 过 程 。p53 与 p68、Drosha 互 作 , 促 进 
了 pri-miRNA 到 pre-miRNA 加 工 过 程 。p53 的 变异 与 癌症 之 间 存 在 密切 关系 。 因 此 ,p53 上 与 
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miRNA 合 成 相关 的 突变 或 者 SNP 可 能 会 增加 或 者 降低 癌症 的 发 生 风 险 。 





四 、miRNA 多 态 改变 表 观 遗传 调控 》》 


miRNA 的 表达 受 表 观 遗传 沉默 的 影响 。miRNA 的 表 观 沉默 最 初 是 在 乳腺 癌 的 发 病 过 程 
中 被 发 现 。 在 乳腺 癌 的 早期 , 某 些 miRNA 的 表 观 沉默 是 很 频繁 的 。 很 多 miRNA 都 由 于 异常 
的 高 甲 基 化 而 受 表 观 遗 传 沉默 的 影响 。Lehmann 等 针对 71 例 乳腺 癌 患 者 研究 发 现 miR-9-1、 
miR-12423 ,miR-148 .miR-152 和 miR-663 在 34%~86% 的 患者 中 具有 异常 的 高 甲 基 化 。 因 此， 
miRNA 的 异常 高 甲 基 化 与 癌症 的 发 生 密 切 相 关 。 而 在 肺癌 中 Let-7 家 族 是 下 调 的 ,已 有 证 据 
证 明了 Let-7a-3 是 低 甲 基 化 的 ,这 也 证 明了 miRNA 可 能 在 恶性 肿瘤 中 具有 两 种 作用 。 引 起 
miRNA 表 观 遗 传 调控 改变 的 多 态 研 究 是 一 个 新 的 研究 领域 。 由 于 miRNA 多 态 所 导致 的 原 癌 
基因 或 抑 癌 基 因 表 观 遗传 调控 的 缺失 或 获得 在 细胞 中 可 能 具有 决定 性 的 影响 ,因此 人 们 可 
以 利用 改变 表 观 遗传 调控 的 miRNA 多 态 来 研究 疾病 发 生 的 机 制 。 

里 然 现 在 已 经 有 case-control 实 验 探索 了 异常 的 表 观 调控 和 癌症 发 病 风 险 之 间 的 关系 ， 
但 是 这 种 遗传 变异 形式 所 蕴含 的 意义 在 整体 水 平 上 还 是 未 知 的 。 此 外 , CpG 岛 中 的 miR- 
SNP 很 可 能 影响 miRNA 的 表达 模式 ,进而 影响 癌症 的 易 感 性 。 一 个 miRNA 的 启动 子 中 出 现 了 
一 个 SNP( 无 论 是 不 是 CpG 岛 ), 它 可 能 会 影响 miRNA 的 表达 水 平 。 确 实 Sevignani 等 人 发 现 易 
感 肿瘤 的 大 鼠 中 大 多 数 是 miRNA 基 因 序 列 上 的 差异 ,而 不 是 大 鼠 的 抗 肿瘤 基因 的 启动 子 上 
的 改变 。 

[ 例 10-5 ] 结合 miRNA 表 达 谱 和 SNP 谱 分 析 miRNA 与 疾病 的 关系 

在 理解 了 SNP 与 miRNA 之 间 的 关系 后 ,我 们 通过 一 个 基本 的 例子 ,简要 介绍 一 下 miRNA 
数据 是 如 何 与 SNP 数 据 结合 使 用 的 。 这 个 例子 的 目的 ,就 是 通过 加 入 SNP 信 息 , 优 化 差异 表 
达 miRNA 的 计算 方法 。 

1. 数据 首先 ,我 们 需要 获得 有 类 标签 (疾病 /正常 ) 的 miRNA 表 达 谱 和 SNP 谱 ,同时 还 
需 准 备 miRNA 在 染色 体 上 的 位 置信 息 , 以 及 SNP 在 染色 体 上 的 位 置信 息 。 

2. 检验 ”在 这 一 步骤 中 ,我 们 需要 使 用 不 同方 法 对 miRNA 和 SNP 数 据 进行 分 析 ,确定 某 
个 miRNA 或 SNP 是 否 与 疾病 相关 。 与 传统 的 差异 表达 基因 计算 方法 类 似 ,我 们 使 用 两 样本 t 
检验 对 miRNA 数 据 进行 处 理 。 公 式 如 下 : 


ja H= be 
o 0o; ( 10-6 ) 
nm nm 


在 面 对 海 量 数据 时 ,由 于 检验 次 数 过 多 , 检验 这 种 传统 的 单 变量 分 析 方 法 的 检验 效能 
是 较 低 的 。 因 此 ,我 们 可 以 加 入 SNP 数 据 进 行 辅助 分 析 。 对 于 离散 型 的 SNP 数 据 ,我 们 使 用 
卡 方 检验 对 数据 进行 处 理 : 


E, eT (10-7) 
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2 (KR, K,S;) 
=E C (10-8) 


其 中 , R 和 8$ 分 别 代表 正常 组 和 疾病 组 的 样本 计数 ,而 出 代表 SNP 亚 型 的 分 类 数目 。 
式 所 描述 的 是 当 基 因 型 数量 为 2 的 情况 。 例 如 , R, 表 示 正 常 样本 中 基因 型 为 “CC” 纯 合 的 样 
本 数目 ,而 S, 则 表示 疾病 样本 中 基因 型 为 “CG” 杂 合 的 样本 数目 。 

3. 整合 ”在 分 别 得 到 所 有 miRNA 与 SNP 的 显著 性 之 后 ,如 何 将 它们 进行 统一 就 成 了 首 
| 为 此 ,我 们 需要 将 有 联系 的 miRNA 与 SNP 进 行 多 对 多 映射 。 通 过 前 面 的 内 容 我 
们 知道 SNP 可 以 通过 很 多 途径 影响 miRNA 的 表达 ,为 了 便于 理解 ,在 这 个 例子 中 我 们 仅 考 虑 
落 在 miRNA 内 的 SNP 对 miRNA 表 达 的 影响 。 通 过 miRNA 和 SNP 在 染色 体 上 的 位 置信 息 ,我 们 
就 可 以 找 出 所 有 落 入 miRNA 内 的 SNP 位 点 了 。 当 许多 SNP 落 入 同一 个 miRNA 时 ,我 们 仅 取 x 
值 最 大 的 SNP ,这样 就 使 得 miRNA 与 SNP 一 一 对 应 了 。 

此 时 ,我 们 使 用 meta 分 析 中 常用 的 Fisher 组 合 概率 检验 ,就 可 以 将 对 miRNA 和 SNP 检 验 得 
到 的 两 个 p 值 整合 成 一 个 统计 量 了 。 公 式 如 下 : 


k 
x --2» (p) (10-9) 
i=l 


其 中 , KR AN EEE PRC, Bk=2. BORE OR Ty E EET E E TA pE, fi 
述 了 在 SNP 信 息 辅 助 的 情况 下 ,我 们 得 到 的 两 种 状态 下 (疾病 /正常 )miRNA 表 达 没 有 变化 的 
概率 。 当 它 显著 时 ,就 可 以 说 明 miRNA 在 两 种 状态 下 表达 不 同 了 。 
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Section 1 Introduction 


在 证 实 DNA 承 载 着 可 遗传 的 分 子 信息 之 前 ,科学 家 已 经 发 现 尽 管 机 体 的 所 有 细胞 拥有 
相同 的 遗传 信息 即 相 同 的 基因 组 BNA 序列 , 却 并 不 是 每 个 基因 在 各 个 细胞 内 都 具有 表达 活 
PE, Waddington 把 这 一 现象 定义 为 “ 表 观 遗传 学 ”( epigenetics ), 这 门 学 科 主 要 是 探索 不 涉 
及 DNA 序 列 改 变 , 由 DNA 甲 基 化 谱 、 染 色 质 结构 状态 等 改变 而 导致 基因 功能 的 变化 并 在 细胞 
代 间 遗传 的 现象 的 本 质 和 规律 。 

表 观 遗传 学 研究 已 有 60 多 年 的 历史 , 近 些 年 来 随机 的 或 环境 诱导 的 表 观 遗传 改变 已 经 
成 为 生命 科学 及 现代 医学 研究 领域 的 热点 ,不仅 在 癌症 中 发 现 了 表 观 遗传 修饰 的 改变 ,在 其 
他 非 癌症 的 疾病 包括 免疫 系统 疾病 、 心 血管 疾病 、 神 经 性 疾病 和 代谢 性 疾病 等 的 发 病 机 制 的 
研究 中 也 发 现 与 表 观 遗传 异常 有 关 。 

高 通 量 实验 技术 的 发 展 及 其 在 表 观 遗传 学 研究 领域 的 应 用 ,已 经 从 基因 组 水 平 检测 出 
一 些 导 致 疾病 发 生 的 表 观 遗传 异常 ,包括 基因 组 局 部 或 全 局 的 DNA 甲 基 化 的 改变 和 染色 质 
蛋白 质 修饰 的 错误 发 生 、 分 布 或 功能 异常 引起 基因 表达 失调 。 因 此 表 观 遗传 学 作为 媒介 架 
起 了 遗传 学 和 环境 之 间 的 桥梁 ,通过 对 表 观 遗传 现象 和 机 制 的 深入 研究 有 助 于 理解 个 体 间 
遗传 背景 环境 及 衰老 与 疾病 之 间 的 关系 。 

计算 表 观 遗传 学 的 研究 浪潮 源 于 高 通 量 实验 技术 下 飞速 出 现 的 海量 基因 组 范围 的 表 观 
遗传 修饰 的 数据 ,生物 信息 学 的 算法 和 工具 ,对 解决 表 观 遗传 学 领域 的 各 种 问题 起 到 了 重要 
作用 。 结 合 传统 的 基因 组 学 、 计 算 机 科学 、 数 学 以 及 生物 化 学 、 和 蛋白 质 组 学 所 获得 的 表 观 遗 
传 学 的 结论 ,不 仅 可 以 指导 实验 设计 ,还 能 实现 仅仅 由 传统 实验 方法 不 能 做 到 的 详细 分 析 复 
杂 的 基因 组 信息 的 目的 。 基 于 计算 表 观 遗传 学 发 展 起 来 的 方法 和 工具 ,大 规模 的 分 析 不 依 
赖 于 基因 序列 的 可 遗传 的 显 型 改变 ,基因 功能 和 基因 表达 ,为 了 解 转录 调控 ,发 育 和 疾病 过 
程 提供 了 高 效 实用 的 工具 。 
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中 发 现 了 表 观 遗传 改变 现象 。 在 过 去 的 10 年 内 , 随 着 生物 实验 技术 的 革命 ,可 以 从 全 基因 组 
水 平 考察 表 观 遗传 修饰 的 变化 ,被 称 为 “ 表 观 基因 组 ”研究 。 表 观 基因 组 是 由 所 有 基因 组 范 
围 的 染色 质 修饰 组 成 ,包括 DNA 甲 基 化 和 组 蛋白 修饰 。 染 色 质 修饰 的 不 稳定 性 使 得 表 观 基 
因 组 呈现 出 动态 变化 ,为 生物 体 提 供 了 响应 和 适应 环境 信号 的 基因 表达 调控 的 机 制 。 芯 片 
技术 及 新 一 代 测 序 技术 为 研究 者 提供 了 绘制 各 种 生命 状态 (如 疾病 状态 的 组 织 或 细胞 和 正 
常 组 织 或 细胞 ) 全 基因 组 范围 内 高 分 辨 率 的 DNA 甲 基 化 和 和 蛋白质 翻译 后 修饰 (如 组 蛋白 修 
饰 ) 图谱 的 工具 ,实现 从 单个 基因 到 基因 组 全 局 水 平 的 研究 人 类 疾病 的 发 生发 展 过 程 。 


一 绘制 基因 组 范围 的 DNA 甲 基 化 谱 >> 


(一 ) DNA 甲 基 化 


DNA 甲 基 化 是 目前 为 止 研 究 比较 成 熟 的 表 观 遗传 修饰 之 一 ,是 导致 一 些 人 类 疾病 发 生 
发 展 的 重要 表 观 遗传 修饰 改变 ,特别 是 在 肿瘤 等 疾病 的 发 病 中 。 哺 乳 动物 中 DNA 甲 基 化 是 
通过 DNA 甲 基 转 移 酶 (DNA methyltransferase ) 的 作用 ,在 5' - 胞 喀 啶 - 乌 味 叭 -3' 二 核 苷 酸 
(CpG ) 内 的 胞 喀 喧 第 5 位 碳 原子 上 添加 来 自 于 S- 腺 苷 甲 硫 氨 酸 CSAM ) 的 甲 基 ( CH, ) 基 团 ， 
目前 的 研究 发 现在 非 CpG 的 胞 喀 啶 上 也 可 能 发 生 甲 基 化 (图 11-1 )。DNA 甲 基 化 通常 通过 影 
响 甲 基 化 -敏感 的 DNA 结 合 蛋白 和 (或 ) 改 变 DNA 到 启动 子 的 接近 性 组 蛋白 不 同 修饰 的 相互 
作用 而 引起 基因 沉默 。 大 量 研究 已 经 表明 , DNA 甲 基 化 的 功能 是 多 种 多 样 的 ,包括 使 转录 
原件 沉默 ,对 发 育 相 关 基 因 的 调控 和 转录 噪声 的 减少 。 研 究 已 经 发 现 异 常 的 甲 基 化 模式 发 
生 在 多 种 人 类 疾病 中 ,包括 癌症 , ICF 综 合 征 (immunodeficiency-centromeric instability-facial 
anomalies syndrome ,表现 为 免疫 缺陷 .着 丝 粒 不 稳定 性 面部 异常 ), ATRX 综 合 征 ( o -地 中 海 
贫血 ,表现 为 精神 发 育 迟 组 ), 以 及 脆性 X 染 色 体 综合 征 等 。 


(=) DNA 甲 基 化 的 分 布 和 检测 
1. 基因 组 上 DNA 甲 基 化 检测 技术 发 展 测定 全 基因 组 范围 的 DNA 甲 基 化 对 于 理解 表 
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图 11-1 DNA 甲 基 化 的 发 生 


观 遗 传 学 的 作用 机 制 是 极其 重要 的 。 早 在 1970 年 就 开始 了 通过 甲 基 化 敏感 性 限制 内 切 酶 的 
方法 测定 全 局 的 DNA 甲 基 化 含量 ,如 Kawai 等 开发 了 限制 性 内 切 酶 或 者 限制 性 的 标记 的 基因 
组 扫描 ( restriction landmark genome scanning, RLGS ) 方 法 测定 少量 基因 区 域 在 各 组 织 间 的 
DNA 甲 基 化 。 然 而 ,这 种 方法 实验 精度 和 广度 受到 酶 切 位 点 的 限制 ,不 适用 于 完全 的 基因 组 
扫描 。 

为 了 解决 这 个 问题 , Frommer 等 人 在 1992 年 引入 亚 硫 酸 氧 盐 转换 技术 来 精确 地 测定 DNA 
甲 基 化 ,使 甲 基 化 测定 技术 取得 了 革命 性 进展 ,该 技术 被 誉 为 测定 胞 喀 啶 甲 基 化 的 “ 金 标 
准 "。 重 亚 硫 酸 盐 预 处 理 方法 的 发 现 引 发 了 甲 基 化 胞 喀 喧 高 精确 性 测定 的 革命 ,这 种 方法 已 
被 多 个 大 型 甲 基 化 测定 计划 所 采用 ,其 中 就 包括 人 类 表 观 基因 组 计划 ( HEP )。 然 而 ,由 于 该 
方法 实验 成 本 较 高 ,限制 了 其 在 基因 组 范围 的 应 用 。 

为 了 解决 这 些 限制 , Weber 等 人 基于 染色 质 免疫 共 沉 淀 原理 ,利用 特定 抗体 对 甲 
基 化 区 域 的 亲 和 纯 化 作用 ,开发 了 甲 基 化 DNA 免 疫 共 沉淀 测定 技术 ( methylated DNA 
immunoprecipitation, MeDIP ), 该 技术 采用 甲 基 化 胞 喀 啶 特异 的 抗体 获得 甲 基 化 的 DNA 序 列 
片段 。MeDIP 与 寞 核 芽 酸 芯片 的 结合 ( MeDIP-chip ) 为 DNA 甲 基 化 谱 的 测定 提供 了 一 个 有 效 
的 手段 。 

另外 ,下 一 代 测 序 技 术 的 发 展 促成 了 甲 基 化 测定 技术 的 第 二 次 革命 ,开发 了 一 些 基 于 测 
序 的 甲 基 化 实验 技术 ,如 MethylC-Seq、RRBS 和 MeDIP-seq 等 ,这 些 技术 中 的 大 部 分 方法 都 可 
以 实现 测定 全 基因 组 范围 内 单 碱 基 水 平 的 DNA 甲 基 化 数据 ,已 经 被 广泛 用 于 测定 大 型 基因 
组 区 域 中 的 DNA 甲 基 化 模式 。 

目前 已 有 的 测定 DNA 甲 基 化 的 技术 ( 表 11-1 ) 产 生 的 数据 大 部 分 都 可 以 通过 0 到 1( 或 0% 
$i 100% ) 之 间 的 连续 值 来 表示 甲 基 化 程度 的 高 低 。 因 此 高 精度 的 甲 基 化 数据 使 得 定量 解释 
DNA 甲 基 化 差异 调控 基因 表达 的 机 制 成 为 可 能 。DNA 甲 基 化 模式 的 描述 及 广泛 的 DNA 甲 基 
化 谱 绘 制 可 以 帮助 理解 在 发 育 的 特定 阶段 以 及 疾病 的 发 生 中 基因 组 的 表 观 遗传 改变 如 何 使 
特定 基因 表达 模式 发 生变 化 。 $ 


X11-1 各 种 测定 DNA 甲 基 化 的 技术 


下 一 代 测 序 技术 芯片 杂交 技术 
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ik: 数据 来 源 : Laird, PW(2010)Nat Rev Genet, 11 : 191-203. 


2. DNA 甲 基 化 检测 技术 介绍 

( 1) 核酸 内 切 酶 消化 : 在 分 子 生物 学 研究 领域 ,限制 性 核酸 内 切 酶 是 一 种 有 力 的 研究 工 
具 。 每 个 序列 特异 限制 酶 都 对 应 一 个 DNA 甲 基 化 转移 酶 ,该 酶 能 保护 内 源 性 DNA 免 受 外 界 
酶 的 影响 ,一 些 限 制 性 内 切 酶 在 甲 基 化 的 胞 喀 啶 处 结合 的 明显 减少 ,因此 这 些 酶 切割 的 模式 
能 够 用 来 判定 DNA 序 列 的 甲 基 化 状态 。 其 中 使 用 最 广泛 的 甲 基 化 敏感 限制 酶 对 包括 Hpall- 
MspI( CCGG ) fliSmaI-Xmal( CCCGGG )。 

以 5” -CCGG-3' 位 点 为 例 , 不 管 其 中 的 CpG 甲 基 化 与 否 , Msql 均 能 切割 CCGG 序 列 , 而 
HpaII 只 切割 没有 甲 基 化 的 CCGG 序 列 。 因 此 ,如 果 两 个 酶 消化 的 片段 相同 ,说 明 该 CpG 位 点 
是 未 甲 基 化 的 ; 寿 不 同 , 则 表明 该 CpG 位 点 是 甲 基 化 的 ,从 而 利用 该 限制 酶 对 可 以 用 来 区 分 
CCmeGG 和 CCGG。 

基因 组 序列 的 酶 切 处 理 与 不 同 的 碱 基 测 定 技术 结合 产生 了 不 同 的 DNA 甲 基 化 测定 
技术 。20 世 纪 70 年 代 和 80 年 代 初 期 , 甲 基 化 敏感 限制 酶 的 消化 DNA 序 列 , 结 合 凝 胶 电泳 和 
Southern blots 杂 交 , 用 于 一 些 基 因 座 特异 的 研究 。 这 种 酶 切 消 化 甲 基 化 敏感 位 点 与 PCR 技 术 
的 结合 ,是 一 种 非常 敏感 的 技术 ,至 今 仍 应 用 于 一 些 研究 中 。 

从 20 志 纪 90 年 代 起 ,人 们 又 开发 了 多 种 基于 酶 切 的 方法 测定 基因 组 范围 的 DNA 甲 基 化 。 
其 中 ,限定 标记 基因 组 扫描 法 ( RLGS ) 是 第 一 个 用 于 检测 基因 组 范围 DNA 甲 基 化 谱 的 技术 ， 
该 方法 是 基于 二 维 凝 胶 电泳 来 测定 实验 样本 和 对 照样 本 间 的 甲 基 化 差异 ,已 经 广泛 应 用 于 
筛选 癌症 特异 的 印记 基因 /位 点 。 类 似 的 方法 还 有 甲 基 化 敏感 随机 性 引物 PCR( methylation- 
sensitive arbitrarily primed PCR, MS-AP-PCR ) 和 甲 基 化 间 区 位 点 扩 增 (amplification of inter- 
methylated sites, AIMS ) 等 。 

目前 , 随 着 芯片 技术 以 及 测序 技术 的 不 断 发 展 ,这 些 基 于 凝 胶 电 泳 的 DNA 甲 基 化 技术 
的 应 用 越 来 减少 。 甲 基 化 CpG 岛 扩 增 法 ( methylated CpG island amplification, MCA ) 就 是 酶 
切 方 法 与 芯片 技术 结合 的 典型 技术 之 一 ,该 方法 利用 的 是 甲 基 化 敏感 限制 酶 对 SmaI-Xmal， 
两 种 酶 对 SmalI 和 Xmal 对 CCCGGG 片 段 甲 基 化 敏感 性 和 切割 方式 存在 差异 性 ,无 论 该 片段 中 
的 CpG 位 点 是 否 甲 基 化 , Xmal 均 对 其 进行 切割 ,而 SmaI 只 切割 未 发 生 CpG 甲 基 化 的 片段 。 但 
是 ,该 方法 与 其 他 基于 4bp 碱 基 识 别 序列 的 其 他 酶 切 方法 相 比 , MCA 方法 的 精度 较 低 。 一 种 
替代 方法 是 差异 甲 基 化 杂交 ( DMH ), 该 方法 基于 双色 微 阵列 分 别 与 甲 基 化 敏感 限制 酶 消化 
和 模拟 消化 DNA 序 列 杂交 ,再 根据 相对 的 奖 光 信号 强度 来 提取 阵列 上 对 应 位 点 的 DNA 甲 基 
化 信息 。 基 于 DMH ,人 们 提出 了 很 多 改进 的 方法 ,如 利用 内 切 核酸 酶 MerBC 的 方法 ,与 甲 基 
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化 敏感 酶 相 比 ,该 方法 能 够 为 高 密度 甲 基 化 的 区 域 中 甲 基 化 水 平 的 测定 提供 更 高 的 精度 。 
其 中 最 优化 的 方法 是 全 面 高 通 量 芯片 相对 甲 基 化 技术 ( comprehensive high-throughput arrays 
for relative methylation, CHARM ), 该 技术 已 经 被 广泛 用 于 人 研究 癌症 特异 的 以 及 干细胞 特异 的 
DNA 甲 基 化 区 域 分 析 。 

逐渐 下 一 代 测 序 技术 也 用 于 测定 基于 酶 切 方 法 富 集 出 的 甲 基 化 片段 。 基 于 序列 的 分 析 
更 加 灵活 和 强大 ,因为 它 允 许 等 位 基因 特异 DNA 甲 基 化 分 析 , 不 需要 预先 设计 探 针 ,即使 在 
较 少 的 DNA 样 品 中 仍 能 覆盖 全 基因 组 。 其 中 最 为 常用 的 技术 是 甲 基 化 测序 ( Methyl-seq ) 和 
用 基 化 敏感 切割 位 点 计数 ( methylation-sensitive cut counting, MsCC ) 等 。 

(2 ) 亲 和 性 富 集 : 目前 的 研究 已 经 证 实 染 色 质 免疫 共 沉淀 ( ChIP ) 是 一 种 对 于 组 蛋白 修 
饰 全 基因 组 研究 特别 有 用 的 技术 。 相 似 的 , 甲 基 化 胞 喀 啶 特异 的 抗体 (在 变性 DNA 附 近 ) 或 
者 用 对 甲 基 化 的 局 部 基因 组 DNA 有 亲和力 的 甲 基 绑 定 蛋 白 , 可 以 用 来 测定 基因 组 范围 的 
DNA 甲 基 化 。 

Cross 等 人 利用 甲 基 绑 定 蛋 白 MECP2 ,第 一 次 实现 了 甲 基 化 DNA 的 亲 和 纯 化 。 亲 和 纯化 
后 ,将 甲 基 化 相关 的 片段 杂交 到 芯片 来 测定 DNA 甲 基 化 的 水 平 ,这 种 方法 被 命名 为 MeDIP- 
chip。 除 了 与 芯片 杂交 的 结合 外 ,目前 人 们 更 多 地 将 亲 和 纯 化 与 下 一 代 测 序 技术 联合 起 来 ， 
称 这 种 方法 为 MeDIP-seq。 

基于 亲 和 纯 化 的 DNA 甲 基 化 测定 技术 已 经 广泛 地 应 用 到 检测 植物 ,小 鼠 以 及 人 类 等 各 种 
细胞 的 甲 基 化 数据 谱 中 。 尽 管 这 种 方法 能 够 快速 有 效 地 对 基因 组 范围 的 DNA 甲 基 化 进行 评 
佑 ,然而 这 些 甲 基 化 信息 的 精度 仅 限于 基因 组 区 域 ,并 不 是 单 碱 基 水 平 的 ,而 且 对 于 不 同 CpG 
密度 的 基因 组 区 域 测 定 的 DNA 甲 基 化 信息 ,还 需要 进行 实验 的 或 者 生物 信息 学 的 校正 处 理 。 

(3 ) 重 亚 硫 酸 盐 转 换 : 20 世 纪 90 年 代 , 人 们 发 现 通过 亚 硫 酸 氢 钠 处 理 , 非 甲 基 化 的 胞 喀 
WEC C ) 被 脱 氨基 作用 而 变 成 尿 喀 啶 ( U ), 在 随后 的 PCR 反 应 中 尿 喀 啶 (U +) 变 成 胸腺 喀 啶 (T); 
而 甲 基 化 的 胞 喀 啶 ( 5-MeC ) 不 能 被 脱 氨 基 , 这 一 发 现 促成 了 DNA 甲 基 化 分 析 领 域 的 革命 性 
进展 。 亚 硫酸 氧 钠 将 非 甲 基 化 胞 喀 啶 转换 为 胸腺 喀 啶 的 反应 使 得 许多 新 的 DNA 甲 基 化 检测 
和 分 析 技 术 的 开发 成 为 可 能 。 

最 初 的 重 亚 硫 酸 盐 转换 DNA 的 分 析 是 由 单位 点 克隆 PCR 产 物 的 桑 格 测序 实现 的 。 许 
多 增强 的 功能 从 那 以 后 也 有 所 发 展 ,包括 PCR 产 物 的 定量 直接 桑 格 测序 以 及 更 为 自动 化 的 
DNA 甲 基 化 测定 技术 。 

人 们 将 重 亚 硫酸 盐 处 理 和 芯片 杂交 技术 相 结合 ,开发 出 了 重 亚 硫酸 盐 甲 基 化 谱 
(bisulfite methylation profiling, BiMP ), 该 方法 通过 杂交 阵列 来 分 析 重 亚 硫 酸 盐 处 理 过 的 
DNA, 需 要 在 对 一 个 专用 的 寒 核 芋 酸 阵列 杂交 前 ,基因 组 单个 区 域 扩 增 ,实质 上 是 适当 的 比 
例 增 大 位 点 特异 阵列 。 值 得 注意 的 是 ,这 种 方法 依赖 于 非 重 亚 硫 酸 盐 转换 DNA 建 立 的 微 阵 
列 , 因 此 ,作为 非 甲 基 化 胞 喀 啶 残留 物 转换 引起 的 错 配 的 结果 ,潜在 的 甲 基 化 靶 序 列 内 外 全 
部 杂交 信号 都 是 低 的 。 由 于 它们 保留 更 多 的 Cs, 产 生出 相对 强 的 信号 ,密集 胞 喀 啶 甲 基 化 区 
域 受 到 的 影响 最 少 。 所 以 , BiMP 仅 适用 于 小 基因 组 甲 基 化 密集 区 。 

此 外 , Illumina 公 司 将 其 GoldenGate 磁 珠 技术 进行 了 改进 ,并 与 重 亚 硫 酸 盐 处 理 相 结合 ， 
用 其 来 查询 人 类 基因 组 DNA 样 本 中 CpG 位 点 的 DNA 甲 基 化 。 该 技术 首先 通过 重 亚 硫 酸 盐 对 
DNA 序 列 进行 处 理 , 然 后 用 甲 基 化 和 非 甲 基 化 特异 的 引物 提取 甲 基 化 和 非 甲 基 化 的 CpG 位 
点 所 在 的 片段 ,并 用 不 同 的 获 光 染料 标记 ,随后 将 提取 出 的 产物 结合 到 磁 珠 芯片 上 进行 测 
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定 ,最 后 根据 甲 基 化 和 非 甲 基 化 的 磁 珠 的 计数 来 估计 每 个 位 点 的 申 基 化 水 平 。 该 技术 最 初 
只 能 测定 1536 个 不 同 CpG 位 点 ,随后 将 位 点 数目 扩展 至 27 578 个 。 目 前 该 方法 已 经 支持 同 
时 测定 >485 000 个 CpG 点 ,全 面 覆盖 了 96% 的 CpG 岛 ,并 根据 需求 加 入 了 CpG 岛 以 外 的 CpG 位 
点 \ 人 类 干细胞 非 CpG 甲 基 化 位 点 ` 正 常 组 织 与 肿瘤 (多 种 癌症 ) 组 织 差异 甲 基 化 位 点 、 编 码 
区 以 外 的 CpG 岛 、miRNA 启 动 子 区 域 和 已 通过 GCWAS 的 疾病 相关 区 域 的 位 点 ,每 张 芯片 可 平 
行进 行 12 个 样本 的 检测 ,因此 它 非常 适合 大 量 样 本 分 析 。 

尽管 重 亚 硫 酸 盐 转换 与 DNA 到 阵列 杂交 能 够 提供 多 样本 DNA 甲 基 化 的 分 析 , 但 是 显然 
这 种 方法 测定 的 位 点 数量 仍然 有 限 。 人 们 基于 下 一 代 测序 技术 ,开始 了 多 种 高 通 量 单 碱 基 
的 DNA 甲 基 化 测定 技术 。 由 于 哺乳 动物 庞大 的 基因 组 和 复杂 的 细胞 状态 , 目前 基于 PCR 或 
全 基因 组 鸟 枪法 效率 都 很 低 。 

Meissner 等 开发 了 简约 重 亚 硫 酸 盐 测 序 技术 ( reduced representation bisulphite sequencing, 
RRBS ), 该 方法 仅 对 通过 Bglll 或 者 MspI 从 庞大 的 基因 组 选择 特定 的 区 域 进 行 测序 ,提高 了 
基因 组 范围 内 CpG 位 点 甲 基 化 状态 测定 的 效率 。 在 另 一 个 重 亚 硫 酸 盐 测序 技术 (bisulphite 
conversion followed by capture and sequencing, BC-seq ) 中 , 则 通过 芯片 获取 重 亚 硫酸 盐 处 理 后 
DNA 并 用 PCR 扩 增 ,从 而 为 创建 测序 文库 获得 充足 的 DNA。 最 终 的 综合 单 碱 基 分 辨 率 DNA 
甲 基 化 分 析 的 技术 则 是 全 基因 组 重 亚 硫 酸 盐 测序 。 全 基因 组 鸟 枪 重 亚 硫 酸 盐 测序 ( whole- 
genome shotgun bisulfate sequencing, WGSBS ) Æ Illumina 基因 组 分 析 平 台 上 已 经 得 以 实现 ,并 
对 小 真 核 生物 基因 组 (如 拟 南 芥 ) 和 哺乳 动物 DNA( 如 人 类 ) 进行 的 测定 分 析 。 虽 然 在 哺乳 
动物 基因 组 上 约 十 分 之 一 的 CpG 二 核 苷 酸 仍然 难以 被 亚 硫 酸 氢 盐 转 换 的 片段 覆盖 ,但 增长 
的 读 取 片 段 的 长 度 和 双 末 端 测序 策略 促成 了 WGSBS 的 实现 及 其 更 为 广泛 的 应 用 。 


(=) 不 同 甲 基 化 谱 方法 间 的 比较 


DNA 甲 基 化 方法 的 直接 比较 受 不 同 技术 的 复杂 性 和 差异 限制 。 许 多 方法 都 有 竞争 优势 
和 劣势 。 对 于 DNA 甲 基 化 测定 技术 的 选择 除了 考虑 覆盖 率 和 分 辨 率 ,还 受 样本 数量 和 DNA 
质量 和 数量 的 影响 。 此 外 ,还 要 考虑 被 研究 的 物种 ,如 基于 芯片 的 方法 ,需要 已 有 的 物种 世 
片 的 支持 ; 而 基于 测序 的 方法 , 则 由 于 参考 基因 组 的 存在 ,一 般 可 应 用 于 任意 物种 。 


二 、 高 通 量 染 色 质 修饰 谱 的 测定 >> 


(一 ) 组 蛋白 修饰 


组 蛋白 修饰 (histone modification ) 是 真 核 生物 中 染色 质 的 主要 修饰 之 一 ,具有 组 织 特异 
性 ,对 外 界 环境 变化 敏感 ,并 对 基因 表达 起 到 关键 调控 作用 。 在 疾病 细胞 中 ,组 蛋白 修饰 模 
式 亦 发 生 改 变 。 尽 管 发 现 组 蛋白 修饰 几 十 年 ,但 对 它 的 知识 积累 的 快速 增加 却 是 在 最 近 几 
年 。 随 着 高 通 量 实验 技术 的 推广 ,绘制 的 基因 组 范围 的 组 蛋白 修饰 图 谱 不 仅 增 进 了 人 们 对 
组 蛋白 修饰 模式 的 认识 ,也 有 助 于 理解 组 蛋白 修饰 在 疾病 发 生 过 程 所 起 的 作用 。 

在 早期 的 染色 质 研 究 中 ,染色 质 被 描述 成 “一 串 线 上 的 珠子 ” ,这 些 珠子 就 是 核 小 体 。 每 
个 核 小 体 由 八 个 核心 组 蛋白 (包括 H3, H4, H2A 和 H2B 各 两 个 ) 及 缠绕 在 八 聚 体 组 蛋白 表面 
的 DNA 序 列 构成 。 核 心 组 蛋白 通过 H1 组 蛋白 相互 连接 (图 11-2 )。 
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图 11-2 meow 
来 源 于 : Zhang Y.HHMD: the human histone modification database.Nucleic Acids 
Res.2010; 38 : 149-154. 


在 核心 组 蛋白 的 末端 有 组 蛋白 尾巴 , 易 受 多 种 共 价 修饰 ,包括 赖 氨 酸 和 精 氮 酸 的 甲 基 
化 , 赖 氨 酸 的 乙酰 化 ,丝氨酸 的 磷酸 化 ( 表 11-2 ), 组 和 蛋白 修饰 通过 降低 和 DNA 结 合 的 亲和力 ， 
还 通过 征调 更 多 的 染色 质 重 构 复 合 物 来 影响 核 小 体 组 装 成 更 高 维 的 包装 结构 。 这 些 修饰 的 
不 同 组 合 模式 内 存储 的 潜在 信息 形成 “组 蛋白 密码 ”的 假说 ,它们 的 特定 组 合 组 合 表 明基 因 
座 特 定 的 转录 模式 。 

当 编 码 组 集 白 修饰 基因 的 改变 和 组 蛋白 修饰 模式 的 亲 乱 与 疾病 的 发 生 有 密切 的 关系 。 
例如 ,多 硫 和 蛋白 EZH2, 组 蛋白 H3 赖 氨 酸 37( H3K27 ) 甲 基 转 移 酶 在 前 列 腺 癌 中 过 表达 ,而 
H4K16 乙 酰 化 和 H4K20 三 甲 基 化 (H4K20me3 ) 在 淋巴 癌 和 结肠 癌 中 观察 到 全 局 的 缺失 。 


表 11-2 高 通 量 实验 测定 的 组 蛋白 修饰 类 型 


组 蛋白 类 型 : 组 蛋白 修饰 

H2A H2AK5ac, H2AK9ac, H2AZ 

H2B H2BK120ac , H2BK12ac, H2BK20ac, H2BK5ac, H2BK5mel , UbH2B* 

H3 H3K14ac, H3K18ac, H3K23ac, H3K27ac, H3K27mel, H3K27me2, H3K27me3, H3K36ac, 


H3K36mel , H3K36me3, H3K4ac, H3K4mel , H3K4me2, H3K4me3, H3K79mel , H3K79me2, 
H3K79me3, H3K9ac, H3K9mel , H3K9me2, H3K9me3, H3R2mel , H3R2me2, H3ac* 

H4 H4K12ac, H4K16ac, H4K20mel, H4K20me3, H4K5ac, H4K8ac, H4K91ac, H4Kac, 
H4R3me2, H4ac* 


jE: * 没 有 使 用 特异 的 抗体 。 数 据 来 源 : Zhang Y.HHMD: the human histone modification database. 
Nucleic Acids Res.2010; 38 : 149-154. 


(=) 组 蛋白 修饰 的 高 通 量 谱 绘制 


目前 测定 组 蛋白 修饰 的 各 种 技术 均 依 赖 于 染色 质 免疫 沉淀 ( ChIP ) 技 术 。 这 项 技术 采 
用 特定 抗体 来 富 集 存在 组 蛋白 修饰 或 者 转录 调控 的 DNA 片 段 , 通 过 多 种 下 游 检测 技术 (定量 
PCR ,芯片 ,测序 等 ) 来 检测 此 富 集 片段 的 DNA 序 列 , 已 经 广泛 用 于 多 个 领域 的 染色 质 相关 重 
白 的 研究 ( 如 组 蛋白 及 其 异 构 体 ,转录 因子 等 ), 特 别 适用 于 已 知 启动 子 序 列 或 整个 基因 位 点 
的 组 蛋白 修饰 分 析 人 研究 。 当 前 基于 ChIP 测 定 组 蛋白 修饰 的 实验 技术 主要 分 为 两 类 : ChIP 与 
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芯片 技术 结合 的 ChIP-chip 技 术 , ChIP 与 测序 技术 结合 的 ChIP-seq 技 术 。 
1. ChIP-chip 描绘 组 蛋白 修饰 
( 1) ChIP-chip 原理 介绍 : 染色 质 免 疫 共 沉 淀 -芯片 ( ChIP-chip ) 的 基本 原理 是 在 特定 的 
实验 条 件 下 通过 甲醛 将 组 蛋白 和 DNA 交 联 ,并 利用 超声 波 将 其 打 碎 为 一 定 长 度 范 围 内 的 染 
色 体 片段 ( <1lkbp ), 然 后 通过 组 蛋白 修饰 特异 性 抗体 沉淀 复合 物 片段 ,从 而 特异 性 地 提取 组 
蛋白 修饰 修饰 结合 的 DNA 片 段 ,并 对 这 些 片段 的 进行 纯化 ,最 后 利用 高 通 量 芯 片 技 术 对 片段 
进行 检测 ,从 而 获得 组 蛋白 修饰 与 DNA 相 互 作用 的 信息 。 
ChlP 与 基因 芯片 相 结 合 建立 的 ChIP-chip 方 法 (图 11-3A ) 已 广泛 用 于 特定 组 蛋白 修饰 
的 高 通 量 筛选 ,从 而 高 通 量 的 筛选 特定 组 蛋白 修饰 的 靶 向 基因 组 DNA 序 列 。 之 前 的 研究 表 
明 组 蛋白 修饰 与 基因 组 DNA 结 合 能 够 调控 染色 质 重 塑 和 基因 转录 ,因此 对 基因 组 范围 组 蛋 
白 修饰 分 布 的 研究 能 够 揭示 疾病 等 过 程 中 的 表 观 遗传 调控 机 制 。 
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图 11-3 ChIP—chipfeChIP—seqZr ikr X Hl 
A. ChIP—chipax A j£ £&; B. ChIP-seq 技 术 流程 
来 源 于 : Schones DE.Genome-Wide approaches to studying Chromatin 
modifications,Nat Rev Genet. 2008; 9( 3): 179-191. 
目前 已 经 有 研究 者 将 该 技术 应 用 于 测定 疾病 与 正常 样本 间 的 差异 组 蛋白 修饰 模式 ,发 
现 组 蛋白 修饰 介 导 疾病 中 的 表 观 遗传 调控 的 异常 。 染 色 质 免疫 共 沉 淀 技 术 与 芯片 技术 相 结 
合 有 助 于 科学 家 发 明 疾病 的 有 效 治疗 方法 。 
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( 2) ChIP-chip 技 术 测 定 组 蛋白 修饰 : ChIP-chip 技 术 在 测定 组 蛋白 修饰 方面 具有 几 个 优 





白 修饰 与 DNA 的 结合 位 置信 息 ; @ 特 定 的 组 蛋白 修饰 抗体 特异 性 地 靶 向 待 检修 饰 的 相关 位 
点 ; @ 能 够 进行 全 基因 组 范围 组 蛋白 修饰 的 测定 。 

总 之 , ChIP-chip 技 术 的 发 展 为 分 析 各 种 疾病 状态 及 其 对 照 组 织 中 DNA 与 组 蛋白 修饰 的 
相互 关系 提供 了 一 个 极为 有 力 的 工具 。 除 了 在 测定 组 蛋白 修饰 方面 的 应 用 外 , ChIP-chip 在 
研究 转录 因子 调控 基因 表达 、 增 强 子 和 隔离 子 等 远 端 调控 原件 的 测定 以 及 染色 体重 塑 中 的 
应 用 也 十 分 广泛 。 

( 3) ChIP-chip 技 术 在 组 蛋白 修饰 检测 的 应 用 : 加 州 大 学 路 德 维 格 癌症 研究 所 ( ludwig 
institute for cancer research, LICR ) 的 研究 者 利用 ChIP-chip 技 术 对 人 类 细胞 的 物种 核心 的 组 
蛋白 修饰 模式 进行 了 测定 ,这 五 种 修饰 包括 : H3ac, H4ac, H3K4mel , H3K4me2, H3K4me3, 
发 现 了 人 类 基因 组 中 重要 的 功能 性 元 件 。 人 类 基因 组 是 包 右 在 染色 质 当 中 的 ,确切 地 说 是 
由 组 蛋白 包 庄 DNA。 针 对 全 基因 组 序列 ,研究 者 分 析 了 人 类 细胞 的 五 种 修饰 与 启动 子 和 增 
强 子 的 关系 ,发 现 已 知 的 启动 子 .增强 子 附近 被 特有 的 组 蛋白 修饰 标记 ,如 H3K4mel1 和 人 类 
增强 子 相关 。 

根据 这 些 特 征 , 研 究 者 开发 了 算法 ,识别 出 了 几 百 个 新 的 潜在 增强 子 , 这 些 都 可 能 是 具 
有 潜在 调控 功能 的 基因 组 区 域 。 该 研究 负责 人 Ren 表 示 : 这 种 方法 的 理论 具有 普遍 性 ,而 且 
可 以 运用 这 套 相 对 公正 的 方法 探索 基因 表达 在 患 病情 况 下 是 如 何 变 化 的 分 子 机 制 ; 这 个 方 
法 的 魅力 所 在 是 它 依 赖 于 组 蛋白 的 化 学 特征 ,而 不 是 DNA 的 ; 对 于 组 蛋白 修饰 特征 的 解析 将 
让 科学 家 快速 识别 出 基因 的 增强 子 和 启动 子 ,在 此 基础 上 可 以 进一步 方便 快捷 地 识别 调控 
基因 表达 的 因子 ; 这 种 方法 还 可 以 用 来 识别 在 癌症 发 生 过 程 中 基因 网 络 异 常 的 发 生 , 这 将 推 
动 癌症 检测 技术 的 开发 。 

2. ChIP-seq 检测 组 蛋白 修饰 

(1 )ChIP-seq 的 原理 介绍 及 检测 组 蛋白 修饰 : 染色 质 免 疫 共 沉淀 -测序 (chromatin 
immunoprecipitation sequencing, ChIP-seq ) 另 一 种 测定 组 蛋白 修饰 的 高 通 量 技术 ,与 ChIP-chip 
不 同 的 是 , ChIP-seq 通 过 对 使 用 免疫 共 沉 淀 ( ChIP ) 后 对 产生 的 DNA 片 段 进行 测序 来 获取 组 
蛋白 修饰 与 DNA 序 列 的 结合 关系 。 同 样 地 ,组 蛋白 修饰 特异 的 抗体 对 ChIP-seq 的 成 功 至 关 
重要 (图 11-3B )。 由 于 实验 技术 的 不 同 , ChIP-seq 的 分 析 与 ChIP-chip 也 有 一 定 的 差别 。 

ChIP-seq 的 第 一 步 分 析 是 将 测序 的 DNA 片 段 匹配 到 参考 基因 组 上 ,目前 已 经 有 许多 有 
效 的 生物 信息 算法 用 于 短 读物 匹配 。 在 读物 匹配 到 参考 基因 组 后 ,下 一 步 的 分 析 则 是 试图 
探测 组 蛋白 修饰 高 度 富 集 的 基因 组 位 置 , 这 个 过 程 被 称 作 峰 值 探测 ( peak calling )。 

目前 广泛 应 用 的 有 两 种 峰值 探测 方法 。 其 中 一 个 是 基于 固定 长 度 窗口 的 方法 ,该 
方法 使 用 一 个 从 随即 读 取 片段 位 置 得 到 的 经 验 背 景 模型 用 于 估计 显著 性 。 然 而 ,组 蛋白 
修饰 的 区 域 的 跨度 比较 大 ,有 时 是 几 百 个 碱 基 ,而 有 时 则 跨越 上 千 碱 基 , 如 抑制 性 的 标记 
(H3K27me3 和 H3K9me3 ) 发 生 在 较 长 的 基因 组 区 域 中 ,这 样 固定 长 度 的 窗口 法 不 适用 于 探 
测 区 间 可 变 的 峰值 区 域 。 

另 一 种 方法 则 基于 隐 马 尔 科 夫 模型 ,可 得 到 可 变 长 度 的 窗口 ,提高 了 峰值 探测 的 精度 。 
基于 组 蛋白 修饰 在 特定 细胞 系 中 峰值 的 分 布 ,人 们 可 以 研究 组 蛋白 修饰 与 各 种 基因 组 调控 
原件 的 位 置 关 系 , 从 而 揭示 组 蛋白 修饰 在 转录 调控 中 的 作用 。 
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( 2) ChIP-seq 的 应 用 : Zhao 等 人 利用 ChIP-seq 构 建 人 类 CD4 细 胞 中 39 种 组 蛋白 修饰 内 的 
全 基因 组 范围 图 谱 ,通过 对 这 些 组 蛋白 修饰 及 其 调控 原件 如 启动 子 ,隔离 子 ,增强 子 和 转录 
区 域 的 分 析 发 现 几 个 重要 的 结论 : H3K27, H3K9, H4K20, H3K79 和 H2BK5 的 单 甲 基 化 都 与 
基因 活化 有 关 ; H3K79 单 甲 基 化 与 基因 抑制 有 关 ; CTCF 标 示 组 蛋白 甲 基 化 区 域 的 边界 ; 染色 
体 带 型 与 特定 的 组 蛋白 修饰 相关 ; T 细 胞 相关 的 癌症 中 的 染色 体 断 列 位 点 与 H3K4 相 关 的 染 
色 体 区域 有 关 ; 组 蛋白 乙酰 化 是 一 种 关键 的 翻译 后 修饰 模式 ,对 组 蛋白 及 其 他 蛋白 的 修饰 
都 具有 重要 的 作用 , 主要 对 转录 的 调节 具有 重要 的 意义 。 该 研究 的 负责 人 表示 : HDACs 不 
仅仅 具有 抑制 转录 的 功能 还 能 修饰 染色 质 中 的 活性 基因 ; 失 活 的 基因 首先 通过 与 MLL 介 导 
的 H3K4 甲 基 化 作用 ,随后 接受 HAT/HDAC 的 动态 乙酰 化 和 去 乙酰 化 的 作用 ,在 阻止 基因 与 
Pol 开 结合 而 抑制 基因 表达 的 同时 ,可 以 使 这 些 基因 保持 能 够 被 激活 的 状态 ; 一 旦 编码 HATs 
和 HDACs 的 基因 发 生 突变 ,将 导致 多 种 疾病 的 发 生 , 包 括 癌症 。 

3. ChIP-chip 和 ChIP-seq 技 术 的 比较 ”尽管 ChIP-chip 和 ChIP-seq 两 种 测定 组 蛋白 修饰 
的 技术 都 基于 染色 质 免 疫 共 沉 淀 ,然而 ,由 于 二 者 采用 的 后 续 测 定 技术 的 不 同 , 它 们 在 分 辩 
率 、 定 量 性 .覆盖 范围 以 及 实验 费用 方面 的 差异 较 大 ( 表 11-3 )。 


X11-3 ChIP-chip 和 ChIP-Seq 的 比较 











检测 技术 ChIP-chip ChlP-Seq . 
分 辩 率 30~100bp lbp | 
分 辩 率 的 影响 因素 探 针 密度 测序 深度 
定量 1 受 杂交 效率 影响 定量 
动态 量程 弱 信 号 会 被 丢弃 ; 强 信 号 会 饱和 无 限制 
LE EIUS 受 芯片 容量 限制 ,局 限于 预 设 的 基因 组 区 域 。 可 覆盖 大 部 分 基因 组 区 域 
全 基因 组 范围 实验 费用 多 少 
需要 的 DNA 量 高 低 
缺点 探 针 和 非特 异性 区 域 杂 交 测序 数据 受 GC 含 量 的 影响 


由 于 芯片 技术 中 探 针 密度 以 及 染色 质 长 度 的 限制 , ChIP-chip 目 前 的 分 辩 率 仅 为 
30~100bp, 这样 ChIP-chip 测 定 的 组 蛋白 修饰 数据 仅 能 反映 较 长 区 域 的 组 蛋白 修饰 状态 ; 而 
基于 测序 技术 的 ChIP-Seq 则 不 依赖 于 芯片 的 限制 , 仅 依赖 于 测序 的 深度 ,只 要 测序 深度 达到 
一 定 的 量 ,就 能 够 测定 任何 有 组 蛋白 修饰 靶 定 的 基因 组 区 域 ,因此 ChIP-Seq 的 最 高 精度 可 以 
达到 1bp, 这 可 能 也 是 目前 ChIP-seq 逐 渐 代 替 ChIP-chip 成 为 主要 的 组 蛋白 修饰 测定 技术 的 主 
要 原因 之 一 。 

除了 在 分 辩 率 方面 的 差异 , ChIP-chip 和 ChIP-seq 另 一 个 主要 的 差别 在 二 者 对 组 蛋白 修 
饰 进行 定量 性 , ChIP-chip 的 定量 性 受到 芯片 技术 过 程 中 杂交 效率 的 影响 ,上 且 还 可 能 发 生 弱 
信号 被 丢弃 而 强 信 号 过 饱和 的 潜在 错误 ,而 基于 测序 技术 的 ChIP-seq 则 能 够 对 基因 组 区 域 
中 的 组 蛋白 修饰 进行 精确 的 定量 。 

再 者 ,就 两 种 技术 的 覆盖 范围 而 言 , ChIP-chip 受 到 芯片 容量 的 限制 , 仅 能 测定 预 设 的 基 
因 组 区 域 , 而 ChIP-seq 则 可 以 覆盖 绝 大 部 分 的 基因 组 区 域 ,因此 在 进行 全 基因 组 范围 组 蛋白 
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修饰 测定 时 , ChIP-seq 技 术 所 需 的 样品 量 更 少 , 且 相对 成 本 较 低 ,这 也 是 目前 ChIP-seq 逐 渐 
代替 ChIP-chip 成 为 主要 的 组 蛋白 修饰 测定 技术 的 为 一 个 主要 原因 。 

尽管 目前 人 们 普遍 使 用 二 者 测定 基因 组 范围 的 组 蛋白 修饰 ,然而 二 者 都 存在 潜在 的 某 
些 缺 点 ,如 ChIP-chip 可 能 发 生 探 针 与 非特 异性 区 域 的 杂交 ,而 ChIP-seq 的 测序 数据 则 受到 
GC 含量 的 影响 ,新 的 更 高 效 的 更 精确 的 组 蛋白 修饰 测定 技术 对 基因 组 范围 的 表 观 遗传 修饰 
调控 机 制 的 研究 是 必要 的 。 








三 .基因 组 印记 与 人 类 疾病 >> 


基因 组 印记 是 指 从 父 本 或 母 本 遗传 得 到 的 等 位 基因 间 存 在 表达 上 差异 的 一 种 现象 。 印 
记 基 因 通 常 表现 为 单 等 位 基因 的 转录 沉默 , 另 一 个 等 位 基因 正常 表达 ,并 且 具 有 组 织 特异 
性 。 基 因 组 印记 的 失调 会 导致 复杂 的 病理 现象 ,研究 发 现 印 记 基 因 与 多 种 疾病 的 发 生 有 关 
系 ,如 癌症 、 生 长 和 代谢 失调 、 神 经 发 育 和 认 知 行为 失调 等 疾病 。 与 疾病 相关 的 印记 基因 的 
功能 失调 可 以 从 印记 起 源 的 角度 上 被 理解 为 是 对 进化 压力 的 反映 。 印 记 基 因 的 表达 暗示 了 
基因 组 内 进化 矛盾 的 结果 ,使 得 从 双亲 遗传 获得 的 等 位 基因 为 了 适应 进化 选择 表现 出 等 位 
基因 的 差异 表达 。 

基因 组 印记 的 突变 与 一 些 复杂 疾病 有 着 密切 的 关系 ,如 安琪儿 综合 征 ( Angelman 
syndrome ), 普 瑞 德 威 利 综合 征 (Prader-Willi syndrome ), 贝 - 威 二 氏 综 合 征 (Beckwith- 
Wiedmann syndrome )。 基 因 种 系 发 育 过 程 中 印记 擦 除 和 获得 的 失调 是 引起 这 些 综合 征 的 主 
要 原因 。 男 外 ,人 研究 显示 1GF2 缺 失 可 导致 上 皮 干 细胞 的 数目 增加 而 易 患 结肠 癌 。 正 因为 显 
示 单 亲本 孕 体 发 育 失败 ,很 多 印记 基因 在 胎盘 和 胚胎 中 参与 细胞 分 化 和 生长 调控 ,也 在 神经 
过 程 和 行为 中 起 关键 作用 。 因 此 ,印记 基因 表达 受到 干扰 将 引起 几 种 重要 的 生长 行为 综合 
征 以 及 癌症 。 

目前 人 类 和 小 鼠 基 因 组 的 印记 基因 的 准确 数目 和 印记 的 范围 还 不 是 很 明确 。 据 估计 它 
们 的 真实 数目 在 100~2100 左 右 。 尽 管 这 方面 的 研究 在 过 去 25 年 取得 了 巨大 的 进展 ,然而 ,起 
作用 的 印记 的 生物 学 功能 图 谱 还 没有 完成 ,因此 准确 识别 全 部 哺乳 动物 基因 组 印记 基因 是 
很 必要 的 。 


(一 ) 印记 基因 的 主要 特征 


印记 基因 分 布 在 整个 基因 组 。 尽 管 有 些 是 独立 的 有 些 成 对 存在 ,大 部 分 在 基因 组 上 呈 
现成 复出 现 的 现象 , 而且 在 人 类 和 小 鼠 中 保持 结构 保守 。 这 些 印 记 区 域 包含 父 本 或 母 本 都 
表达 的 基因 ( 即 非 印 记 基 因 ) 在 多 数 情 况 下 至 少 包 含 一 个 非 编 码 RNA。 这 些 等 位 特异 表达 的 
印记 基因 (更 广泛 的 可 能 是 印记 位 点 ) 受 表 观 遗传 修饰 调控 ,其 中 DNA 甲 基 化 是 主要 因素 。 

人 研究 发 现 ,离散 的 协同 印记 的 单 等 位 表达 的 顺 式 作 用 区 域 即 印记 控制 区 ( imprinting 
control region, ICR ) 全 部 是 发 生 差异 甲 基 化 的 区 域 ( differentially methylated region, DMR ), 包 
括 等 位 的 遗传 自 父 本 和 母 本 的 DNA 甲 基 化 (被 认为 是 种 系 的 DMR )。 在 ICRs 种 系 的 DNA 甲 基 
化 的 获取 需要 DNA 甲 基 转 移 酶 3A( DNMT3A ) 和 DNA 甲 基 转 移 酶 3 Like( DNMT3L ) 共 同 作用 。 
一 旦 获得 , DNA 甲 基 化 印记 将 在 整个 发 育 和 成 体 所 有 体 细胞 谱系 中 维持 。 这 些 印 记 标 记 以 
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不 同方 式 读 出 ,确保 适当 的 亲本 等 位 特异 表达 。 
(二 ) 印记 基因 的 识别 


1. 基于 基因 表达 分 析 发 现 印记 基因 研究 发 现 亲 本 等 位 基因 不 平衡 表达 适用 于 识别 印 
记 的 位 点 。 然 而 ,设计 这 样 表 达 需 要 满足 几 个 重要 的 条 件 : 四 理想 的 cDNA 资源 需要 区 分 父 
本 和 母 本 的 等 位 基因 ; (QcDNA 资 源 应 该 代表 蛋白 质 编 码 和 非 编 码 的 基因 ( 非 编 码 RNAs ) 因 
为 两 者 的 表达 都 能 被 印记 调控 ; (有 的 基因 只 在 特定 的 组 织 和 发 育 阶段 印记 ; OMERE 
基因 需要 区 别 它们 与 基因 显示 随机 单 等 位 表达 。 

第 一 次 成 功 表达 扫描 是 使 用 小 鼠 单 亲本 cDNA 胚 胎 或 胚胎 成 纤维 细胞 基于 消减 杂交 和 
差异 显示 技术 实施 。 随 着 高 通 量 芯片 技术 的 发 展 可 以 同时 扫描 几 千 个 基因 的 表达 。 尤其 是 ， 
一 个 大 规模 的 芯片 由 全 9.5dpc 单 亲本 小 鼠 胚 胎 的 27 663 个 full-length 个 小 鼠 cDNA 通 过 比较 基 
因 表 达 水 平 用 于 识别 印记 基因 。 分 析 识 别 出 多 于 2100 个 印记 候选 转录 本 (分 别 1403 母 本 表 
达 和 698 父 本 表达 ,包括 56 个 非 编码 RNA )。 

在 一 个 最 近 的 研究 中 ,9.5dpc 母 本 和 控制 胚胎 的 基因 表达 水 平 用 Affymetrix GeneChip 探 
针 世 片 比较 ,包含 多 于 45 000 个 基因 和 ESTs。 只 有 39 个 候选 转录 本 (包括 18 个 已 识别 的 印 
记 ), 识 别 为 父 本 表达 。 然 而 ,这 些 结果 进行 实验 验证 时 ,只 有 很 少 的 候选 转录 本 被 证 实 印记 
而 大 多 数 显示 非 印 记 。 

小 鼠 的 种 系 带 有 特定 的 单亲 二 倍 体 (UPD ) 或 者 重复 的 印记 染色 质 区 域 可 以 至 少 部 分 
的 克服 这 些 缺 陷 。 例 如 , Schulz 等 人 利用 UPD 小 鼠 不 同 组织 的 cDNA 芯片 实验 成 功 的 识别 了 
三 个 胎盘 中 母 本 表达 的 新 的 基因 ,新 的 4 个 大 脑 组 织 特异 的 父 本 表达 转录 本 。 

然而 ,基于 UPD 小 鼠 芯 片 扫描 的 局 限 性 也 是 显而易见 的 。 事 实 上 ,在 所 有 的 单亲 本 胚胎 
中 ,在 这 些 胚胎 中 观察 到 印记 的 缺陷 可 能 干扰 非 印 记 基 因 的 表达 ,产生 假 阳性 的 印记 基因 。 

另 一 种 方法 是 使 用 有 意义 的 SNP 变 体 使 得 不 但 能 建立 给 定 基 因 的 亲本 起 源 的 表达 ,也 
能 扫描 生理 正常 的 “ material  。 这 些 可 以 通过 小 鼠 不 同 株 系 的 相互 杂交 实现 。 在 人 类 中 ， 
为 了 破解 复杂 疾病 的 起 源 ,国际 HapMAp 协 会 建立 了 单 体型 图 谱 数 据 库 ( http: //hapmap.ncbi. 
nlm.nih.gov/ ) 和 千 人 基因 组 计划 ( http: //browser.1000genomes.org/index.html )。 已 识别 的 人 类 
的 SNP 在 dsSNP 数 据 库 ( http: //www.ncbi.nlm.nih.gov/projects/SNP/ ), 可 以 用 于 转录 水 平 来 确定 
特定 基因 或 一 组 基因 的 等 位 基因 的 表达 。 几 个 研究 用 SNP 特 异 芯片 的 方法 研究 人 类 组 织 和 
细胞 系 等 位 特异 的 基因 表达 。 虽 然 不 一 定 致力 于 新 印记 基因 的 预测 ,这些 研 究 确 定 了 几 个 
已 知 印记 基因 的 差异 的 等 位 表达 和 几 个 高 置信 度 的 新 的 印记 转录 本 。 

为 了 识别 新 的 印记 基因 , Pollard 等 人 设计 一 个 方法 允许 从 随机 单 等 位 表达 的 基因 中 分 
别 出 真 实 的 候选 印记 基因 。 在 这 项 研究 中 ,等 位 表达 研究 是 通过 来 自 67 个 不 相关 个 体 的 SNP 
特异 世 片 。 在 这 些 基因 中 ,显示 差异 等 位 表达 的 ,真正 的 候选 印记 基因 通过 SNP 相 关 等 位 相 
对 于 不 同 杂 合子 个 体 其 他 等 位 过 度 或 不 足 等 位 表达 来 识别 。 因 此 ,分 析 2625 个 人 类 基因 确 
定 了 61 个 候选 印记 基因 。 其 中 15 个 实验 验证 印记 ,7 个 显示 强 的 证 据 , 但 没有 证 实 被 印记 。 

由 于 此 实验 只 覆盖 了 人 类 编码 基因 大 约 10%( 不 包含 非 编 码 基因 ), 估 计 在 淋巴 细胞 没 
有 多 于 几 百 个 印记 基因 。 尽 管 接 下 来 的 芯片 将 提供 更 广泛 的 覆盖 率 ,这 种 方法 也 有 很 大 的 
局 限 性 。 分 析 是 定制 选择 的 ,限定 一 定 的 基因 组 区 和 他 们 需要 已 知 的 SNP 位 置 和 转录 序列 。 
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此 外 ,芯片 分 析 不 能 提供 一 个 已 知 基因 在 两 个 等 位 基因 的 可 靠 地 定量 的 表达 比率 ,因此 不 便 
于 识别 显示 一 个 等 位 亲本 表达 偏差 的 印记 基因 。 、 

最 近 计 算 机 辅助 深度 测序 方法 的 发 展 , 二 代 测 序 技术 ,提供 了 有 效 的 有 希望 替代 芯片 分 
析 的 方法 。 尤 其 是 致力 于 识别 新 的 印记 基因 的 RNA 测 序 ( RNA-seq) 方法。 因为 当 应 用 于 
多 肽 cDNA 资源 时 可 以 定量 检测 整个 转录 本 的 等 位 偏差 。Wang 等 通过 对 不 同 株 系 反 交 的 新 
生 小 鼠 大 脑 样 本 的 转录 本 进行 测序 ,识别 的 26 个 印记 基因 中 有 3 个 被 确认 是 印记 的 。Babak 
等 用 一 个 简单 的 方法 建立 了 小 鼠 胚胎 9.5dpc 的 印记 基因 的 图 谱 。 

除了 转录 本 分 析 , 单 等 位 基因 表达 评估 可 以 通过 研究 等 位 特异 的 转录 结合 因子 。 在 一 
个 新 颖 的 方法 中 , Maynard 等 调查 人 类 肺 成 纤维 细胞 的 RNA 聚 合 酶 [的 等 位 特异 结合 位 点 。 
他 们 设计 ChIP-SNP 方 法 ,其 中 用 SNP 分 析 芯 片 来 分 析 沉 淀 抗 RNA 聚 合 酶 抗体 的 区 域 。 通 过 
这 种 方法 ,识别 了 已 知 的 印记 基因 ,包括 microRNA 秘 邻近 的 MEG3 等 。 

2. 基于 差异 甲 基 化 的 研究 ” 甲 基 化 胞 喀 啶 的 全 基因 组 图 谱 通 过 无 偏 的 方法 系统 的 识 
别 DMRs 获 得 。 特 别 有 趣 的 是 最 近 发 现 的 BS-seq 方 法 能 应 用 到 复杂 的 人 类 和 小 鼠 的 基因 组 。 
进一步 将 此 方法 结合 SNP 数 据 应 用 于 有 效 的 识别 新 的 候选 的 DMRs 相 关 的 印记 位 点 。 

另外 ,基因 组 范围 DNA 甲 基 化 谱 可 以 用 于 比较 正常 基因 组 和 那些 已 知 存在 甲 基 化 印记 
缺陷 的 基因 组 。 这 一 方法 最 近 成 功 的 应 用 于 分 析 一 个 患者 血液 样本 多 个 印记 缺陷 和 正常 控 
制 基 因 组 CpG 甲 基 化 。 接 下 来 的 亚 硫 酸 盐 处 理 , DNA 杂 交 到 用 于 分 析 多 于 14 000 多 个 基因 的 
CpG 甲 基 化 芯片 。 除 了 确定 这 些 患 者 在 已 知 印记 DMRs 的 低 甲 基 化 ,这 一 研究 还 可 以 确定 新 
的 候选 DMRs。 和 这 些 区 域 相关 的 RB1 显 示 在 人 类 基因 组 中 发 生 印 记 。 

3. 基于 染色 质 特征 扫描 种 未 来 时 代 的 方法 “ 几 种 定位 特异 研究 组 蛋白 修饰 ,其 
中 进一步 被 全 基因 组 分 析 支 持 , 揭 示 了 一 种 ICR 特 异 的 染色 质 信号 的 存在 。 尤 其 是 , DNA 甲 
基 化 的 等 位 基因 与 被 定义 为 抑 染 色 质 的 组 蛋白 标记 一 致 相关 (如 H3K9me3 和 H4K20me3 )。 
相反 的 , 非 甲 基 化 的 等 位 基因 被 组 蛋白 修饰 H3K4me2/me3 标 记 , 是 典型 的 活性 染色 质 。 应 用 
认 了 和 小 鼠 细 胞 系 的 全 基因 组 Chip-seq 得 到 的 组 蛋白 标记 图 谱 ,用 机 器 学 习 的 方法 可 以 应 
用 这 些 数 据 系统 的 识别 这 些 特异 染色 质 信号 的 区 域 特征 。 此 外 , ChIP-seq 识 别 的 染色 质 特 
征 会 以 等 位 特异 的 模式 被 读 出 ,用 SNPs 允 许 分 配 每 个 染色 质 修饰 到 特定 的 亲本 等 位 ,因此 用 
于 识别 新 的 候选 ICRs。 

除了 识别 假定 的 ICRs, 全 基因 组 的 染色 质 信号 也 可 用 于 识别 等 位 转录 的 区 域 。 研 究 
显示 ChIP-seq 结 合 等 位 差异 的 SNP 信 息 ,观察 到 H3K36me3 等 位 不 平衡 ,在 一 些 印记 位 点 和 
microRNAs 标 记 与 转录 延伸 相关 。 

通过 获得 不 同 表 观 特征 谱 交 叉 信 息 可 以 进一步 改进 这 些 方法 。 使 用 包括 几 个 小 鼠 印记 
染色 质 区 域 的 定制 芯片 , Dindot 等 人 发 现 已 知 的 ICRs 是 有 特异 的 DNA 甲 基 化 谱 与 H3K9me3 
和 H3K4me3 重 蚕 。 通 过 这 一 方法 他 们 识别 了 11 个 新 的 印迹 控制 区 。 通 过 使 用 一 个 简单 的 方 
法 , Wen 等 人 提出 可 以 用 H3K4me2, DNA 甲 基 化 和 CTCF 结 合 位 点 识别 人 类 T 细 胞 和 永生 淋巴 
细胞 系 的 印记 区 域 。 

4. 通过 DNA 序 列 特征 预测 印记 基因 已 经 识别 的 大 量 的 印记 基因 为 计算 方法 识别 候选 
印记 基因 提供 了 条 件 。 计 算 方 法 是 基于 识别 的 印记 基因 共有 的 特定 的 序列 特征 。 尤 其 是 ， 
人 类 印记 区 域 相对 于 非 印 记 位 点 显著 缺少 SINEs。 

第 一 次 大 规模 基于 DNA 序 列 特征 预测 印记 基因 的 是 Luedi 等 人 比较 分 析 了 44 个 已 
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知 印 记 基 因 和 530 个 状态 没有 经 实验 验证 的 基因 (假定 非 印 记 基 因 )。 分 析 包 括 几 种 重 
复元 件 家 族 的 分 布 ,转录 因子 结合 位 点 和 CpG 岛 。 其 中 显著 的 特征 ,作者 证 实 低 密度 的 
SINEs 是 印记 区 域 一 个 显著 的 特征 ,并 且 相 对 于 印记 基因 的 方向 有 很 高 的 区 分 价值 。 此 
外 ,内 含 子 中 的 闭 源 性 病毒 和 LINEs Lls 也 是 预测 印记 状态 的 重要 因子 。 随 后 ,这 些 
显著 预测 特征 被 用 于 训练 分 类 器 用 于 预测 基因 的 印记 和 非 印 记 状 态 以 及 印记 的 表达 
情况 。 

应 用 分 类 器 分 析 全 部 23 788 个 注释 的 常 染色 体 基 因 结 果 识 别 600( 2.5% ) 个 候选 印记 基 
因 ,384( 64% ) 个 预测 为 母 本 表达 。 相 似 的 ,将 分 类 器 用 于 人 类 ,预测 出 20 770 个 基因 中 的 
156 个 ,88 个 为 母 本 表达 。 基 因 组 中 预测 的 小 鼠 和 人 类 印记 基因 比率 的 差异 可 以 通过 更 严格 
的 方法 来 解释 ,但 可 能 也 是 事实 上 人 类 基因 组 就 是 比 小 鼠 有 更 少 的 印记 基因 。 此 外 ,两 种 物 
种 的 基因 组 预测 的 印记 基因 的 数目 都 只 限定 在 蛋白 质 编 码 基因 。 

最 后 ,人 类 基因 组 中 156 个 候选 基因 ,只 有 DLGA4P2 和 KCNK9, 被 实验 证 实 为 印记 基因 ， 
并 预测 为 父 本 等 位 基因 表达 。 有 趣 的 是 , KCNK9 ,在 之 前 对 小 鼠 研 究 中 显示 大 脑 中 母 本 印 
记 特 异 表达 。Luedi 等 预测 的 600 个 基因 中 的 16 个 可 能 的 候选 印记 基因 被 用 E11.5 小 鼠 胚 胎 实 
验 检验 。 除 了 KCNK9, 其 他 15 个 基因 在 这 个 发 育 阶 段 没有 显示 印记 特异 表达 。 

. 5. 基于 表 观 遗传 特征 预测 ”扫描 检测 表 观 标记 (如 DNA 甲 基 化 和 组 蛋白 修饰 ) 在 给 定 
基因 父 本 和 母 本 的 差异 。 也 提供 相应 的 策略 识别 新 的 印记 位 点 。 已 知 在 ICRs 有 等 位 表 观 遗 
传 差异 ,印记 调控 的 关键 区 域 。 

ICRs 是 由 DNA 甲 基 化 在 父 本 或 母 本 一 方 种 系 标记 获得 的 (构成 种 系 DMR )。 除 了 DNA 甲 
基 化 , ICRs 在 一 些 体 细胞 中 也 有 差异 的 组 蛋白 修饰 标记 。 扫 描 识别 种 系 DMRs/ICRS 的 主要 
优势 集中 在 他 们 可 以 在 所 有 的 细胞 类 型 中 执行 ,因为 无 论 印记 基因 的 的 表达 水 平 如 何 , 它 们 
的 表 观 遗传 标记 覆盖 在 发 育 相 关 和 成 体 细胞 。 男 一 方面 , ICRs 作 为 离散 的 元 件 通常 控制 成 
百 上 千 个 碱 基 最 多 十 个 基因 的 整个 印记 簇 。 

因此 ,这 种 扫描 更 倾向 于 识别 几 个 印记 基因 的 染色 质 区 域 而 不 是 单个 的 印记 基因 。 随 
之 而 来 识别 启动 子 区 域 的 组 织 差 异 甲 基 化 区 域 (T-DMRs ) 更 容易 显示 单个 的 印记 基因 。 

正如 在 转录 组 分 析 一 样 ,过 去 几 年 经 历 了 巨大 的 技术 变革 ,有 利于 以 一 种 无 偏 的 方式 
显示 全 基因 组 的 表 观 遗传 特征 。 甲 基 化 的 DNA 由 抗 一 5mC 抗 体 沉淀 ( MeDIP assay ) 或 者 甲 
基 -CpG 结 合 和 蛋白 ( MIRA assay ) 能 进一步 通过 芯片 杂交 或 深度 测序 方法 分 析 。 

另 一 个 有 意义 的 方法 是 重 亚 硫酸 盐 测序 ( BS-seq ), 其 中 甲 基 化 依赖 重 亚 硫 酸 盐 保守 
DNA( 甲 基 非 甲 基 胞 喀 啶 差异 ) 结 合 高 通 量 测序 全 基因 组 单个 碱 基 定量 的 图 谱 。 相 似 的 ,全 
基因 组 的 组 蛋白 修饰 图 谱 通 过 特定 的 染色 质 免 疫 和 柑 入 探 针 芯片 ( ChIP-chip ) 或 深度 测序 
( ChIP-seq ) 获得 。 





四 、 常 用 的 疾病 表 观 遗传 学 数据 库 》》 


随 着 高 通 量 实验 技术 的 不 断 推出 及 改进 使 表 观 基因 组 水 平 的 数据 与 日 俱 增 ,人 研究 人 员 
测定 了 各 种 疾病 状态 下 的 基因 组 范围 的 表 观 遗传 学 修饰 的 图 谱 ,如 何 存 储 如 此 众多 旦 重要 
的 数据 并 从 中 提取 重要 的 信息 成 为 表 观 遗传 学 研究 的 瓶颈 ,为 了 解决 这 些 难 题 ,研究 结合 生 
物 信息 学 技术 ,构建 了 专门 的 疾病 表 观 遗传 数据 库 用 于 存储 疾病 相关 的 表 观 遗传 学 实验 测 
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定 的 数据 ,并 在 数据 库 中 开发 了 相应 的 功能 分 析 模 块 以 供 科 研 人 员 进 一 步 分 析 数 据 中 的 重 
要 信息 。 

疾病 表 观 遗传 学 数据 库 的 构建 和 应 用 促进 了 表 观 遗传 学 的 快速 发 展 ,有 利于 相关 数据 
的 重复 利用 。 疾 病 表 观 遗传 学 数据 库 主 要 是 用 来 存储 疾病 及 其 正常 对 照 中 的 各 种 表 观 遗传 
学 修饰 (如 DNA 甲 基 化 、 组 蛋白 修饰 等 ) 的 数据 ,例如 ,人 类 疾病 甲 基 化 数据 库 DiseaseMeth、 
人 类 DNA 甲 基 化 与 癌症 数据 库 MethyCancer、 人 类 组 蛋白 修饰 数据 库 HHMD。 下 面 将 简单 介 
绍 这 两 个 典型 的 疾病 表 观 遗传 学 数据 库 的 网 站 及 其 使 用 。 

(一 ) 人 类 疾病 甲 基 化 数据 库 (DiseaseMeth) 

人 类 疾病 和 DNA 甲 基 化 的 改变 密切 相关 。 人 类 疾病 甲 基 化 数据 库 ( DiseaseMeth ) 是 人 
类 甲 基 化 数据 库 中 迄今 为 止 收录 各 类 实验 测定 的 人 类 基因 甲 基 化 数据 最 为 全 面 的 数据 库 ， 


该 数据 库 旨 在 存在 人 类 各 种 组 织 细胞 系 在 疾病 等 状态 下 的 高 通 量 和 小 规模 实验 的 甲 基 化 
数据 (图 11-4 )。 
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当前 数据 库 收录 72 种 疾病 的 超过 14 000 个 条 目的 数据 。 该 数据 库 提 供 在 线 查 询 、 下 
载 . 分 析 和 可 视 化 等 基本 工具 。 可 通过 疾病 类 型 .染色 体位 置 .基因 ,细胞 类 型 ,实验 技术 等 
多 种 选项 联合 筛选 ,进而 进行 基因 中 心 的 甲 基 化 分 析 。 分 析 结 果 链 接 了 可 视 化 界面 ,提供 
了 方便 使 用 的 基因 组 角度 的 视图 。 结 果 页 面 还 链接 到 多 个 数据 库 , 如 HHMD , GeneCards, 
MethyCancer 等 。 该 数据 库 还 内 建 了 分 析 基 因 和 疾病 之 间 关 系 的 分 析 工 具 , 可 方便 地 进行 
基因 -基因 、 基 因 - 疾 病 和 疾病 -疾病 之 间 的 相关 性 分 析 。 同 时 ,下 载 的 数据 可 被 其 他 软件 如 
GBrowse 识 别 , 便 利 下 游 的 功能 研究 。 该 数据 亩 为 甲 基 化 研究 提供 了 新 的 便捷 工具 ,为 阐释 
癌症 的 发 生机 制 .筛选 疾病 相关 的 基因 提供 了 便利 的 研究 工具 。 更 多 DiseaseMeth 详 情 可 以 
访问 其 官方 网 站 : http: /bioinfo.hrbmu.edu.cn/diseasemeth。 
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(=) 人 类 DNA 甲 基 化 与 癌症 数据 库 (MethyCancer) 


人 类 DNA 甲 基 化 与 癌症 数据 库 ( MethyCancer ) 是 第 一 个 比较 全 面 的 人 类 癌症 DNA 甲 
基 化 数据 库 ( 图 11-5 ), 该 数据 库 旨 在 研究 DNA 甲 基 化 、 基 因 表 达 与 癌症 间 的 相互 作用 ,涵盖 
DNA 甲 基 化 癌症 相关 基因 突变 ,癌症 信息 和 CpG 岛 等 信息 ,对 这 些 不 同 数据 类 型 之 间 的 互 
联 互通 进行 了 分 析 和 讨论 。 


^ MethyCancer 


Database of Human DNA Methylation and Cancer 


Methyview | Methy&Cancer user's Guide] rip 
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当前 版 本 的 MethyCancer 存 储 了 人 类 表 观 基因 组 计划 (HEP ) 等 测定 的 人 类 145 个 组 织 

的 DNA 甲 基 化 数据 ,以 及 7075 个 癌症 相关 基因 中 的 DNA 甲 基 化 模式 ,为 进一步 分 析 癌 症 中 异 
常 DNA 甲 基 化 提供 了 数据 资源 。MethyCancer 的 DNA 甲 基 化 搜索 界面 ,可 用 来 搜索 用 户 感 兴 
趣 区 域 的 甲 基 化 模式 。 另 外 该 数据 库 还 提供 了 基因 搜索 界面 .癌症 搜索 界面 .序列 搜索 界 
面 及 重复 序列 搜索 界面 。MethyCancer 还 提供 了 搜索 工具 和 可 视 化 工具 ( MethyView ) 来 帮助 
用 户 获 取 感 兴趣 的 数据 并 在 基因 组 的 背景 下 查看 DNA 甲 基 化 模式 。 该 数据 库 加 速 了 研究 者 
对 癌症 发 生 的 分 子 机 制 的 曾 明 ,并 促进 了 癌症 诊断 、 治 疗 机 预后 的 有 效 手 段 的 研究 。 更 多 
MethyCancer 详 情 可 以 访问 其 官方 网 站 : http: //methycancer.psych.ac.cn/。 


(三 ) 人 类 组 蛋白 修饰 数据 库 


人 类 组 蛋白 修饰 数据 库 ( human histone modification database, HHMD ) EAX HAEA 
饰 数 据 库 是 迄今 为 止 收录 各 种 实验 测定 的 人 类 基因 组 组 蛋白 修饰 最 为 全 面 的 数据 库 ( 图 
11-6 ), 该 数据 库 旨 在 存储 人 类 各 组 织 中 的 高 通 量 组 蛋白 修饰 数据 ,并 提供 各 种 癌症 基因 上 
的 组 蛋白 修饰 状态 。 当 前 版 本 的 HHMD 共 涵盖 了 43 种 基于 ChIP 技 术 的 实验 技术 测定 的 人 类 
组 蛋白 修饰 的 大 通 量 实验 数据 ,并 提供 了 通过 文献 得 到 的 9 种 癌症 相关 的 基因 的 组 蛋白 修饰 
的 信息 。 

用 户 可 以 通过 搜索 相应 的 基因 组 区 域 中 的 组 蛋白 修饰 ,该 数据 库 提 供 了 五 种 搜索 组 蛋 
白 修 饰 的 方式 ,分 别 是 组 蛋白 修饰 类 型 .基因 ID ,功能 注释 、 染 色 体 定位 ,癌症 类 型 。 并 可 以 


一 、472 第 十 一 章 ”计算 表 观 遗传 学 
CHAPTER 11 COMPUTATIONAL EPIGENETICS 


通过 可 视 化 组 蛋白 修饰 的 工具 HisModView 进 行 基因 组 水 平 可 视 化 ,在 已 有 的 基因 组 注释 的 
背景 下 研究 组 蛋白 修饰 的 分 布 `. 这 些 组 蛋白 修饰 与 DNA 甲 基 化 之 间 的 关系 ,以 及 二 者 与 相应 
基因 功能 元 件 的 位 置 关 系 , 据 此 来 设计 实验 对 感 兴趣 的 区 域 进行 湿 实 验 研究 。 该 数据 库 支 
持 用 户 对 搜索 和 可 视 化 的 结果 进行 下 载 ,并 且 提 供 了 处 理 基 因 组 组 蛋白 修饰 数据 的 Java 程 
序 。 整 个 数据 库 体 现 了 很 好 的 交互 性 操作 ,对 研究 组 蛋白 修饰 与 其 他 表 观 遗传 调控 元 件 如 
DNA 甲 基 化 之 间 的 相互 作用 关系 提供 了 一 个 很 好 的 平台 ,能 够 促进 组 蛋白 修饰 在 染色 质 重 
塑 转录 调控 和 人 类 疾病 中 作用 机 制 的 研究 。 更 多 HHMD 详 情 可 以 访问 其 官方 网 站 : http: // 
bioinfo.hrbmu.edu.cn/hhmd o 





HHMD 





Human Histone Modification Database ^^ : 
Home  HisModView Search Histone Download Submit Contact Help 
Quick Search Introduction 


Histone Modification Human Histone Modification Database (HHMD), a comprehensive database for human histone 
modifications, which focuses on integrating useful histone modification information from experimental data 

Gene ID that is essential for understanding these modifications at a systematic level. The current release of HHMD 

Cancer Nune incorporates 43 location-specific histone modifications in human. We also provide a comprehensive resource 
rn of histone modification regulation in 9 human cancer types. We developed HisModView to facilitate the users 

Chromosome Location to browse histone modifications im the context of existing human genomic annotations. 

Functional categories * All Histone modifications can be searched by gene ID, cancer name, histone modification or 
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location. 
HisModView + Please cite the paper if you use HHMD: "HHMD: the human histone modification database, Nucleic 
Acids Research 2010, 38(Database issue)‘D149-D154. click to browse our paper” 
+ HHMD will update regularly. Last Update: 11-29-2010 
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第 三 节 


表 观 遗传 修饰 谱 分 析 


Section 3 Analysis of epigenetic modification map 


表 观 遗传 调控 失调 与 许多 疾病 有 着 密切 的 关系 。 如 表 观 遗传 机 制 调控 免疫 系统 的 功能 ， 
当 这 一 机 制 失 调 时 ,会 引起 类 风湿 疾病 和 系统 性 红斑 狼疮 的 发 生 。 同 样 , 表 观 遗传 调控 大 脑 
神经 细胞 的 活性 ,精神 性 疾病 如 精神 病 和 药物 滥用 反应 与 表 观 遗传 改变 相关 。 对 于 所 有 的 
常见 疾病 ,肿瘤 中 表 观 遗传 改变 的 作用 研究 得 最 详细 。 肿 瘤 抑制 基因 的 表 观 遗传 沉默 是 多 
种 肿瘤 的 频繁 发 生 事件 ,一 些 证 据 表明 它 是 肿瘤 发 展 的 重要 原因 ,如 最 近 的 研究 显示 DNA 甲 
基 化 模式 在 瘤 细 胞 和 正常 细胞 存在 较 大 的 差异 ,在 正常 细胞 中 ,全 基因 组 是 高 甲 基 化 而 在 
CpG 岛 中 低 甲 基 化 。 在 癌 细 胞 中 则 呈现 全 基因 组 的 低 甲 基 化 和 某 些 CpG 岛 的 高 甲 基 化 ,这 则 
可 能 与 DNA 甲 基 化 调控 致癌 基因 和 抑 况 基因 的 相对 表达 水 平 相 关 。 癌 细胞 和 成 体 胚 胎 干 细 
胞 之 间 有 着 相似 的 表 观 遗传 特征 ,上 暗示 着 表 观 遗传 失调 使 细胞 行为 会 向 肿瘤 细胞 方向 发 展 。 


一 、 基 因 组 范围 内 疾病 差异 甲 基 化 区 域 筛选 >> 


(一 ) 差异 甲 基 化 区 域 的 生物 学 意义 


DNA 甲 基 化 的 差异 在 发 育 过 程 和 疾病 的 发 生发 展 过 程 中 扮演 着 重要 的 角色 。 基 因 的 差 
异 甲 基 化 区 域 ( DMRs ) 是 指甲 基 化 模式 发 生 改变 的 区 域 ,研究 发 现 它们 可 能 是 调控 基因 转 
录 的 功能 区 域 。 大 量 的 研究 发 现在 人 类 的 各 组 织 间 存 在 组 织 差异 甲 基 化 区 域 (T-DMRs ), 
癌症 中 存在 癌症 差异 甲 基 化 区 域 ( C-DMRSs ), 对 差异 甲 基 化 区 域 的 识别 可 促进 人 类 基因 组 
中 表 观 遗传 变异 的 生物 学 意义 的 研究 。 

目前 普遍 认为 DNA 甲 基 化 参与 细胞 增殖 和 分 化 ,不 仅 在 发 育 阶段 发 现 了 发 育 差异 甲 基 
化 区 域 ( D-DMRs ), 而且 在 重 编 程 的 过 程 中 也 发 现 了 重 编程 差异 甲 基 化 区 域 ( R-DMRs ), iX 
些 R-DMRs 与 T-DMRs 和 C-DMRs 也 有 着 高 度 的 重 秋 。 

此 外 , 随 着 年 龄 的 增长 表现 出 个 体内 的 差异 甲 基 化 区 域 ( Intra-DMRs ), 以 及 在 多 个 个 体 
间 的 差异 甲 基 化 区 域 ( Inter-DMRs )。 通 过 对 DMRs 的 研究 能 够 更 深入 地 了 解 DNA 甲 基 化 与 
其 他 表 观 遗传 调控 因子 协同 调控 基因 功能 的 具体 机 制 。 


(=) 差异 甲 基 化 区 域 的 筛选 方法 
目前 关于 差异 甲 基 化 区 域 相关 的 研究 中 ,已 有 了 一 些 计算 方法 用 来 从 实验 数据 中 识别 
473 
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差异 甲 基 化 区 域 。 在 最 初 关于 差异 甲 基 化 区 域 的 研究 中 ,由 于 实验 技术 的 限制 ,人 们 只 关注 
少数 几 个 基因 在 样本 间 的 DNA 甲 基 化 差异 ,如 Shen 等 通过 限制 性 内 切 酶 方法 测定 一 簇 B - 珠 
蛋白 基因 中 的 DNA 甲 基 化 ,然后 通过 观察 DNA 甲 基 化 在 各 组 织 中 的 差异 来 分 析 组 织 特异 的 
DNA 甲 基 化 。 

随 着 高 通 量 实验 技术 的 不 断 进 步 , 在 过 去 的 几 年 里 ,一 直 在 努力 开发 计算 的 方法 来 识别 
DMRs。 为 了 在 两 个 样本 间 筛 选 DMRs, Bibikova 等 人 对 人 类 胚胎 干细胞 和 正常 完全 分 化 细胞 
中 的 甲 基 化 水 平 进行 7 检 验 。 在 另 一 项 研究 中 ,为 了 进行 配对 组 织 比较 ,使 用 平均 甲 基 化 的 
差异 以 及 z 值 来 衡量 差异 甲 基 化 。 然 而 ,这 两 种 方法 并 不 适用 于 多 于 样本 的 情形 。 

在 处 理 多 样本 的 数据 时 ,有 两 种 筛选 DMRs 的 统计 学 方法 : Byun 等 使 用 的 方差 分 析 
( ANOVA ) 和 Eckhardt 等 使 用 的 Kruskall-Wallis 检 验 。Byun 等 使 用 的 前 提 是 数据 服从 正 态 分 
布 , 但 是 这 个 假设 在 服从 双 峰 分 布 的 甲 基 化 数据 中 是 不 存在 的 ,所 以 该 方法 对 于 分 析 DNA 甲 
基 化 数据 有 些 受 限 。 

Eckhardt 等 使 用 的 Kruskall-Wallis 检 验 不 依赖 于 数据 分 布 , 比 前 者 更 适合 用 来 盘 选 
DMRs ,但 是 这 种 统计 方法 利用 的 数据 中 甲 基 化 状态 的 排 秩 , 对 于 排 秩 顺序 相同 的 甲 基 化 区 
域 ,能 够 给 出 相同 的 结果 ,但 是 并 没有 考虑 到 甲 基 化 波动 范围 带 来 的 影响 ,如 波动 范围 大 的 
区 域 应 该 有 更 大 的 差异 ,因此 这 种 方法 可 能 丢失 原始 数据 中 丰富 的 数字 信息 。 

除了 统计 学 方法 ,还 有 两 种 非 统计 学 的 方法 , Fan 等 将 在 所 有 组 织 中 的 甲 基 化 程度 都 大 
于 50% 的 区 域 定义 为 甲 基 化 区 域 ,都 小 于 50% 的 区 域 定义 为 非 甲 基 化 区 域 , 其 他 区 域 则 为 
DMRs, 显 然 这 种 方法 忽视 了 甲 基 化 程度 在 50% 附 近 的 区 域 的 正确 分 类 。 

作为 这 种 方法 的 改进 , Rakyan 等 提出 将 某 个 组 织 中 超 高 甲 基 化 T-DMRs 定 义 为 在 该 组 
织 中 甲 基 化 程度 大 于 60% 且 至 少 在 三 个 其 他 组 织 中 的 甲 基 化 程度 小 于 40% 的 区 域 , 超 低 甲 基 
化 T-DMRs 则 为 该 组 织 中 小 于 40% 且 在 至 少 三 个 其 他 组 织 中 大 于 60% 的 区 域 ,剩余 的 区 域 为 
非 差异 甲 基 化 区 域 。 

有 人 利用 改进 后 的 香农 信息 增 开 发 了 一 个 新 的 方法 QDMR ,并 提供 了 界面 友好 的 简单 
易 用 的 JAVA 软件 ,对 各 种 不 同样 本 间 的 甲 基 化 差异 进行 定量 化 ,并 从 基因 组 范围 内 筛选 出 
差异 甲 基 化 的 基因 组 区 域 。 基 于 之 前 用 于 筛选 差异 表达 基因 的 信息 彤 的 方法 ,通过 输入 值 
校正 和 箭 值 校正 两 步 改 进 , 用 来 筛选 差异 甲 基 化 区 域 ,这 是 信息 焊 论 第 一 次 用 来 筛选 某 种 
因素 在 不 用 样本 间 的 差异 程度 ,并 且 是 第 一 次 用 来 筛选 差异 甲 基 化 区 域 。 基 于 信息 箭 的 方 
法 不 仅 能 够 衡量 每 个 基因 组 区 域 在 不 同 生命 状态 间 的 定量 差异 程度 ,而 且 能 够 根据 这 种 差 
异 程度 来 对 所 有 区 域 进行 排 秩 或 者 分 类 , 除 此 之 外 ,还 可 以 指出 差异 甲 基 化 区 域 在 哪个 生命 
状态 下 特异 的 发 生 高 / 低 甲 基 化 ,从 而 可 以 研究 不 同类 别 的 区 域 在 不 同 生命 过 程 中 所 扮演 的 
不 同 角 色 。 ` 

【 例 11-1 ] QDMR 方 法 筛选 差异 甲 基 化 区 域 

表 11-4 给 出 了 40 437 个 人 类 基因 组 区 域 在 16 个 组 织 中 的 甲 基 化 状态 ,利用 QDMR 软 件 对 
组 织 间 的 甲 基 化 差异 进行 定量 ,并 筛选 差异 甲 基 化 区 域 DMR。 
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X11-4 人 类 16 个 组 织 中 的 甲 基 化 数据 


: | 组 织 类 型 
区 域 = 
Ti. a2 T3 T4 T5. T6 I7 I8- T9 T10 Tii M2 T13 T14 Ti5 T46 
ROIO00001 20 31 31 34 19 24 20 18 34 3l 29 13 21 34 26 17 
ROI0O00002 60 56 63 63 57 61 58 59 356 55 54 63 56 58 59 61 
ROIO00003 64 55 63 61 61 62 58 60 54 52 54 69 60 58 61 62 
ROIO00004 35 40 43 51 38 35 43 38 46 4l 53 23 51 53 37 48 
ROIO00005 40 36 42 44 37 46 42 38 39 4l 43 28 45 40 36 45 
ROIO00006 34 27 34 29 28 25 28 24 36 32 41 18 35 29 27 30 
ROI000007 27 29 36 30 25 31 26 18 30 29 42 12 37 32 29 29 
ROIO00008 71 57 74 67 72 78 75 76 6l 65 67 67 71 62 71 59 
ROIO00009 66 48 74 61 44 66 55 51 5 63 67 31 67 59 76 55 
ROI0000010 24 22 27 26 21 23 22 21 24 27 29 20 31 25 24 23 


ROI040437 50 44 60 58 55 54 51 42 51 62 65 34 54 32 29 55 


JE: 数据 来 源 : Rakyan VK.An integrated resource for genome-wide identification and analysis of 
methylated regions (tDMRs).Genome Res.2008 ; 18,1518-1529, 


1. 甲 基 化 差异 定量 


Hy uu log, (p,, )x 

其 中 入 为 样本 总 数 , m, A DC TEFE AS s PRU AECL, max( m, ). min(m,, ). MAX#IMIN 

BY SN Fy DC PEAS P I Ic FE AL BX Sah TE PEAS rp B o NEP REFER, 整体 最 大 甲 基 化 

值 和 整体 最 小 甲 基 化 值 , se 为 非常 小 的 数 , T, 79 — 2E OTA SS OH Pe i Di RARA 
特异 高 甲 基 化 的 偏好 性 )。 
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甲 基 化 差异 定量 (图 11-7 )。 
2. 差异 甲 基 化 区 域 筛选 
为 了 基于 定量 的 甲 基 化 入 筛选 组 织 间 差 异 甲 基 化 的 区 域 ,该 方法 又 基于 概率 论 是 思想 ， 
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图 11-7 人 类 16 组 织 间 甲 基 化 差异 定量 


A. 为 40437 个 区 域 的 甲 基 化 热 图 , 粒 值 由 小 到 大 排序 。B. 为 A 中 上 方 灶 值 最 小 的 100 个 区 域 的 热 图 ,C .为 A 中 


下 方 灶 值 最 大 的 100 个 区 域 热 图 
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来 源 于 : Zhang Y. QDMR: a quantitative method for identification of differentially methylated 


regions by encropy.Nucleic Acids Res.2011; 39 : 58. 
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在 36 到 64 之 间 ), 获 得 筛选 组 织 间 差异 甲 基 化 区 域 的 国 值 5.326。 根 据 该 阀 值 从 40 437 个 区 域 
rpm 10 651 个 组 织 间 差 异 甲 基 化 区 域 ( 图 11-8 )。 








a 组 织 特异 低 甲 基 化 DMR | 
mu 组 织 特异 高 甲 基 化 DMR 


T-DMR 的 数量 








组 织 类 型 


图 11-8 人 类 16 组 织 间 差异 甲 基 化 区 域 及 组 织 特异 性 
来 源 于 : Zhang Y. QDMR: a quantitative method for identification of 
differentially methylated regions by encropy.Nucleic Acids Res.2011; 39 : 58. 


3. 样本 特异 性 衡量 
对 于 基于 以 上 立 值 第 选 的 差异 甲 基 化 区 域 ,该 方法 利用 差 炳 定义 了 各 样本 中 绝对 特异 
性 测度 : 
CS. = rs x sign, ,,AH,,, >0 
ris 0 ,AH,, <0 (11-3 ) 


其 中 AH,, = Hy 一 Ho PH, ARG ASIT TS HOME. FDR fr ht eae FE x 
域 在 各 样本 中 的 甲 基 化 特异 性 。 大 于 0 的 CS 表示 该 DMR 在 该 样本 中 特异 高 甲 基 化 ,小 于 0 表 
示 特 异 低 甲 基 化 。 利 用 方法 衡量 以 上 筛选 出 的 10 651 个 T-DMR 的 组 织 特异 性 (图 11-8 )。 


二 、 组 蛋白 修饰 的 改变 与 人 类 疾病 >> 


(一 ) 组 蛋白 修饰 改变 参与 疾病 发 生 


组 蛋白 修饰 在 基因 表达 的 调控 中 具有 重要 的 作用 ,疾病 状态 下 异常 基因 表达 可 能 是 导 
致 疾病 发 生 的 原因 之 一 。 最 近 的 研究 已 经 表明 癌症 中 组 蛋白 修饰 H4K16ac 和 H4K20me3 的 
全 局 性 的 缺失 ,而 之 前 的 研究 已 经 表明 这 些 修 饰 出 现在 整个 基因 组 中 ,特别 是 覆盖 在 重复 序 
列 中 的 DNA 低 甲 基 化 区 域 。 相 反 , 还 有 研究 在 特定 基因 启动 子 区 发 现 了 H3K9ac、H3K4me2 
和 H3K4me3 的 缺失 ,以 及 H3K9me2 、H3K9me3 和 H3K27me3 的 获得 ,这 些 组 蛋白 修饰 的 改变 
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能 够 沉默 关键 肿瘤 抑制 基因 从 而 促进 肿瘤 发 生 。 

另外 发 现 癌症 中 DNA 甲 基 化 标记 的 基因 和 多 梳 家 族 和 蛋白 ( polycomb group protein, PcG ) 
SEA BE SEES ,之 前 有 报道 称 多 梳 家 族 和 蛋白 经 常 与 抑制 性 组 蛋白 修饰 H3K27me3 共 定位 , 因 
此 可 以 推测 某 些 基因 在 癌症 中 被 特定 的 抑制 性 组 蛋白 修饰 靶 向 ,导致 其 沉默 。 


(=) 组 蛋白 修饰 酶 介 导 组 蛋白 修饰 改变 


在 组 蛋白 修饰 发 生 改 变 的 过 程 中 ,组 蛋白 修饰 相关 的 酶 起 了 关键 作用 。 通 过 催化 酶 的 
平衡 对 组 蛋白 修饰 进行 双向 调控 ,这 是 翻译 后 修饰 的 典型 特征 。 在 疾病 状态 下 催化 酶 的 失 
衡 将 导致 表 观 遗传 修饰 的 异常 ,从 而 导致 疾病 相关 基因 的 表达 和 功能 异常 。 

最 近 的 研究 显示 这 种 失衡 在 人 类 和 小 鼠 的 肿瘤 生成 具有 重要 的 作用 。 例 如 ,组 蛋白 甲 
基 转 移 酶 (HMTs )EZH2 能 够 催化 H3K27me3 ,该 酶 的 过 表达 能 够 促进 肿瘤 生长 ,这 种 肿瘤 包 
括 如 黑色 素 瘤 淋巴 瘤 前列腺 瘤 以 及 乳腺 癌 。 同 时 ,癌症 中 H3K27me3 的 组 蛋白 去 甲 基 化 酶 
( HDMTs ) 的 失 活 则 导致 H3K27me3 修 饰 的 增加 ,已 经 在 多 种 肿瘤 中 发 现 了 该 现象 ,如 多 发 性 
骨髓 瘤 ,食管 鳞 状 细胞 癌 和 肾 细胞 癌 等 。 

此 外 ,研究 还 发 现 H3K9me3 甲 基 化 转移 酶 SUV39H 参 与 肿瘤 的 发 生 和 发 展 ,该 酶 在 小 鼠 
中 的 缺失 导致 染色 质 不 稳定 并 促进 肿瘤 的 生成 。 除 癌症 中 组 蛋白 甲 基 化 转移 酶 外 ,组 蛋白 
乙酰 化 转移 酶 (HAT ) 和 组 蛋白 去 乙酰 化 酶 ( HDAC ) 也 导致 大 量 的 基因 特异 组 蛋白 乙酰 化 
改变 。 研 究 发 现在 急性 白血病 中 HDACs 和 HMTs 的 异常 能 够 介 导 基因 表达 的 沉默 。 对 各 种 
组 蛋白 修饰 酶 的 平衡 机 制 的 研究 将 有 助 于 解释 组 蛋白 修饰 参与 疾病 发 生发 展 的 作用 。 





三 、 人 类 疾病 相关 的 基因 组 印记 分 析 >> 
(一 ) 基因 组 印记 分 析 的 意义 


通常 情况 下 ,印记 基因 的 印记 发 生 过 程 通过 逐渐 的 亲本 固定 的 随机 单 等 位 进化 和 表达 
来 实现 ,如 果 两 个 等 位 基因 都 沉默 则 产生 致死 效应 ,固定 的 印记 基因 单 等 位 表达 确保 了 精确 
的 蛋白 质 水 平 调节 胚胎 和 产后 生长 以 及 行为 ,代谢 。 很 多 研究 已 经 揭示 遗传 和 表 观 遗传 的 
机 制 调节 印记 基因 的 表达 ,发 育 中 印记 基因 显示 部 分 的 基因 簇 共 调控 ,印记 基因 位 点 也 显示 
彼此 的 位 置 影响 一 些 表 观 遗 传 状 态 的 调控 。 这 些 发 现 表 明 印 记 基 因 在 调控 生长 代谢 和 行为 
上 可 能 是 功能 协调 互 作 的 。 基 因 调 控 水 平 的 协调 又 能 控制 基因 编码 蛋 白 质 之 间 蛋 白质 -和 蛋 
白质 的 相互 作用 。 因 此 系统 的 整合 大 规模 的 蛋白 互 作 和 基因 表达 数据 可 以 从 一 个 新 的 视角 
发 现 印 记 基 因 功 能 ,这 对 正常 发 育 和 一 些 复杂 疾病 失调 是 很 有 意义 的 。 


(=) 利用 大 规模 蛋白 质 互 作 网 络 分 析 印记 基因 


Sandhu 等 人 应 用 公共 的 PPI 网 络 ,疾病 和 功能 数据 系统 水 平分 析 印 记 基 因 的 功能 ,揭示 
了 印记 基因 “products” 和 他 们 的 互 作 “partners” 有 广泛 的 相互 作用 ,共同 构成 一 个 生长 与 代 
谢 相关 的 子 网 ,在 维持 人 类 互 作 组 拓扑 和 功能 稳定 性 起 重要 作用 。 

【 例 11-2 ] 基 于 网 络 识别 印记 基因 的 过 程 

( 1) 构建 和 分 析 IGPN( Imprinted Gene-products and Partners Network )。 把 已 知 的 人 类 
207 个 实验 发 现 和 预测 的 印记 基因 (来 自 于 geneimprint resource , http: //geneimprint.com ) 映射 
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到 人 类 整合 的 蛋白 质 互 作 网 络 。 通 过 检测 IGPN 和 随机 产生 网 络 的 全 局 和 局 部 聚 类 系数 确 
认 印 记 基 因 产 物 和 搭档 的 共同 性 。 通 过 分 析 证 实 了 IGPN 代 表 人 类 互 作 组 中 紧密 结合 的 网 
络 , 起 主要 调节 功能 的 印记 基因 参与 其 中 。 

(2 ) 评 估 IGPN 到 HIN 的 无 偏好 性 和 全 局 贡献 。 计 算 全 局 中 心 分 数 命 名 为 IGPN 和 HIN 的 
“betweenness” 和 “closeness” o Betweenness 中 心 是 根据 网 络 中 通过 一 个 特定 顶点 的 左右 最 
短路 径 的 数目 ,而 closeness 代 表 网 络 中 一 个 顶点 到 达 任 何其 他 顶点 的 步 数 ,这 说 明 顶 点 的 全 
局 相关 性 。 分 析 显 示 IGPN 顶 点 与 HIN 和 随机 网 络 相 比 有 更 显著 多 的 中 心 。 由 于 遗传 的 突变 
可 能 导致 完全 的 或 部 分 的 蛋白 质 互 作 缺失 。 基 因 表达 失调 在 另 一 种 程度 上 可 能 影响 互 作 的 
partners 的 绑 定 和 非 绑 定 程度 。 非 随机 更 高 的 顶点 代表 可 能 经 验 与 疾病 相关 的 在 基因 水 平 
的 错误 或 者 扰动 ,可 能 意味 着 更 多 的 IGPN 功 能 的 易 受 攻击 性 。 

(3 ) 探 讨 OMIM 数 据 库 中 的 疾病 条 目 。 发 现 IGCPN 映 射 的 253 个 基因 与 疾病 相关 。 疾 病 相 
关 的 基因 与 其 他 ICPN 相 比 有 更 高 的 中 心 。 此 外 , 顶点 中 心 和 定点 疾病 数目 正 相 关 , 强 调 这 
种 更 高 的 拓扑 中 心 与 功能 本 质 的 相关 性 。 

(4 ) 疾 病 与 印记 基因 的 关系 。 通 过 基因 和 集 富 集 分 析 ( gene set enrichment analysis ), 进行 
几 次 随机 扰动 确定 了 特定 表达 表 型 的 非 随机 相关 基因 和 集 ,显示 IGPN 基 因子 集 在 疾病 表 型 中 
显著 失调 。 尤 其 是 IGPN 基 因子 集 在 ALL/AML ,精神 病 和 糖尿 病 中 上 调 , 在 自 闭 症 中 下 调 。 
在 哮喘 和 老年 性 痴呆 中 这 种 扰动 是 很 微弱 的 。 共 88% 的 ICPN 基 因 和 70% 的 印记 基因 在 疾病 
表 型 中 是 失调 的 ,因此 发 现 复杂 疾病 已 知 与 印记 基因 相关 。 

进一步 分 析 发 现 关 键 的 信号 和 转录 调节 因子 如 T53, NFKB2, HDACI, SMADI-4, 
EGFR, TGFB1, EP300 是 高 度 的 中 心 节点 并 与 多 数 疾 病 的 一 般 扰动 相关 。IGPN 和 蛋白 质 更 高 
的 中 心 和 连通 性 直接 说 明 他 们 的 生物 学 意义 。 这 将 可 能 包括 全 全 局 的 调控 子 、 适 应 子 、 效 
应 子 和 调节 分 子 。 例 如 , GRB2, TRAF6/2 是 信号 适应 子 , SMAD2/3, EGFR 是 重要 的 信号 转 
SAY, TP53 是 主要 的 细胞 周期 调控 因子 , IKBKE 激 酶 和 EP300 是 转录 因子 结合 在 不 同 的 增 
强 子 上 ,最 主要 的 IGPN 中 心 hubs 在 HIN 分 别 有 398,358,323,264,210 和 196 个 互 作 和 蛋白 质 。 
IGPN 中 的 印记 基因 GNAS( Ga 信和 号 调节 因子 ), TP73 (细胞 周期 ,印记 状态 冲突 ), INS( 信 号)， 
UBE3A( 趴 3 泛 素 调节 退化 因子 ), DCN (肿瘤 增长 抑制 因子 ), GRB10( 信 号 转 导 ) 和 NDN( 神 
经 发 育 通 路 调节 ) 最 高 互 作 节 点 分 别 有 53,30,29,27,26,25 和 20 互 作 partners。 因 此 ,印记 
基因 本 身 并 不 是 突出 的 hubs, 尽 管 他 们 连接 到 HIN 非 随机 的 中 心 hubs 和 与 1GPN 在 一 起 。 印 
记 基 因 可 以 作为 VIPclub 的 类 似 物 ,因为 他 们 自己 不 与 很 多 的 partners 相 连 , 但 是 多 是 影响 
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四 、 常 见 的 疾病 表 观 遗传 修饰 数据 分 析 软 件 >> 


高 通 量 技术 产生 的 表 观 遗传 数据 直接 促进 了 各 种 表 观 遗传 软件 的 开发 ,这 些 软件 也 促 
进 了 表 观 基因 组 学 研究 的 不 断 深 入 。 为 了 从 基因 组 水 平 研究 表 观 和 遗传 学 修饰 ,需要 开发 对 
表 观 遗传 修饰 进行 功能 基因 组 分 析 的 软件 。 目 前 ,可 用 的 软件 中 包括 用 于 基因 组 筛选 差异 
甲 基 化 区 域 的 软件 (QDMR ), 用 于 基因 组 CpG 岛 预测 的 软件 ( CpG_MI ) 以 及 ( 表 观 ) 基 因 组 分 
析 软 件 ( EpiGraph ) 等 。 下 面 将 对 这 三 个 计算 表 观 遗传 学 软件 的 应 用 进行 简单 的 介绍 。 
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CHAPTER 11 COMPUTATIONAL EPIGENETICS 
(一 ) 基于 信息 粹 定量 筛选 差异 甲 基 化 区 域 软件 (ODMR) 


SEF f EL E HE FE SFR SE KE QDMR ) 是 一 个 界面 友好 的 定量 筛选 基因 组 
多 样本 间 差 异 甲 基 化 区 域 的 软件 (图 11-9 )。 随 着 基因 组 范围 内 DNA 甲 基 化 测定 技术 的 不 断 
进步 ,目前 产生 了 大 量 的 不 同 细胞 /组 织 中 的 DNA 甲 基 化 数据 ,QDMR 基 于 信息 业 理 论 可 以 定 
量 的 筛选 这 些 不 同 细胞 /组 织 间 的 差异 甲 基 化 区 域 。 
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1. The measurement of sample specificity has been finished and shown in the Specificity Table. 
2. The first few columns contain the region information. 

. The column named "Entropy contains the entropy for each region. 
4. The columns named as "CS " contain the specificity of each region in every sample. 















图 11-9 基于 信息 炳 定量 筛选 差异 甲 基 化 区 域 软件 (QDMR ) 
该 软件 首先 利用 信息 炉 对 各 细胞 /组 织 间 的 甲 基 化 差异 进行 定量 ,然后 再 通过 恰当 的 立 
值 筛选 差异 甲 基 化 区 域 , 并 计算 每 个 差异 甲 基 化 区 域 在 各 细胞 /组 织 中 的 甲 基 化 特异 性 。 同 
时 ,该 软件 不 仅 对 处 理 的 数据 提供 了 可 视 化 ,还 提供 了 UCSC 基 因 组 浏览 器 的 连接 ,便于 用 于 
查看 差异 甲 基 化 区 域 附近 的 基因 组 信息 及 其 他 调控 元 件 信息 等 。 该 软件 适用 于 所 有 能 够 转 


换 为 0 到 1 的 连续 数 表示 甲 基 化 状态 的 实验 技术 。 基 于 Web 的 和 本 地 化 的 QDMR 软 件 的 下 载 
及 更 多 说 明 可 以 访问 其 官方 网 站 http: //bioinfo.hrbmu.edu.cn/qdmr/。 


(=) 界面 友好 的 ( 表 观 ) 基因 组 分 析 和 预测 软件 (EpiGraph) 


EpiGraph, 是 一 个 界面 友好 的 ( 表 观 ) 基因 组 分 析 和 预测 的 在 线 软 件 ( 图 11-10 )。 
EpiGraph 可 用 于 复杂 的 基因 组 和 表 观 基因 组 数据 集 的 生物 信息 学 分 析 , 重 于 以 组 为 单位 的 
涉及 两 分 类 问题 的 基因 组 区 域 的 分 析 。 使 得 生物 学 家 可 以 在 脊椎 动物 基因 组 和 表 观 基因 组 
数据 集中 发 现 隐 含 的 关联 。 

EpiGraph 根 据 用 户 提交 的 一 组 基因 组 区 域 ,测试 多 种 属性 (包括 DNA 序 列 ,染色 质 结 构 ， 
表 观 遗传 学 修饰 以 及 进化 保守 ) 是否 在 这 些 区 域 中 富 集 或 缺失 。 此 外 , EpiGraph 将 会 以 预测 
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EpiGRAPH: A user-friendly software for advanced (epi-) genome analysis and prediction 






Welcome to EpiGRAPH! f 
EpIGRAPHW a poemata for genane and epigencme sis, was developed to help biomedical researchers making sense of 
. large-scale datasets, which are nowadays routinely with technologies such as ChiP-on-chip, tiling microarrays and 
EnoRApH bt sing and power For poer occasional users, Ze EGRAPH veis provides a default nii dati 
applicable to most datasets, To more dataset of. de po performs statistical analyses 
os cine UES ee gir ga 
m TOSTA PIGRAPH «— \ 
: s A il odak a \ 
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peret per eg ne agi hy cim api het C Lr a Vat 
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* Cancer Genomics: To what degree do factors like gene richness, local recombination rates and 
chromatin structure 

uriatons? And which roja doas timor erchtion play (Le. do we ses diferent delartinanis of 


S This analysis requires large-scale esequencing data a number of tumors. 


图 11-10  EpiGraph Ze AX, & # 


的 方式 鉴别 相似 的 基因 组 区 域 。EpiGraph 为 用 户 提供 了 统计 分 析 的 在 线 服务 ,用 户 只 需要 
een o s ee ol A 
两 组 数据 比较 的 箱 式 图 。EpiGraph 解 决 了 两 个 基因 组 生物 学 的 普遍 任务 : 一 个 是 发 现 一 

特定 生物 学 作用 的 基因 组 区 域 (例如 实验 定位 的 增强 子 ， ner cipes 
特异 异常 的 位 点 ) 和 从 公共 数据 库 中 得 到 的 大 量 的 基因 组 注释 数据 的 新 的 关联 。 另 外 是 评 
价 是 否 可 能 鉴别 具有 相似 作用 的 额外 的 区 域 ,而 不 必 进 行进 一 步 的 湿 实 验 。EpiGraph 在 线 
软件 服务 及 更 多 说 明 可 以 访问 其 官方 网 站 : http: //epigraph.mpi-inf.mpg.de/WebGR APH/. 


(=) 基于 互信 息 识 别 基因 组 功能 CpG 岛 的 软件 (CpG MI) 


CpG_MI 是 基于 互信 息 识别 基因 组 功能 CpG 岛 的 软件 (图 11-11 )。 该 方法 不 依赖 于 传统 
方法 对 CpG 岛 长 度 的 限制 ,与 之 前 用 来 识别 CpG 岛 的 方法 相 比 ,有 着 更 高 的 精度 , 且 识 别 出 来 
的 CpG 岛 大 部 分 与 组 蛋白 修饰 区 域 相 关 。 由 于 该 算法 只 依赖 于 基因 组 CpG 二 核 苷 酸 的 分 布 ， 
分 析 得 到 其 他 的 兰 椎 动物 基因 组 的 CpG 二 核 背 酸 均 服 从 相同 的 指数 分 布 ,因此 可 以 将 此 算 
法 推广 到 其 他 基因 组 中 CpG 岛 的 预测 。 

CpG_MI 提 供 了 在 线 的 和 本 地 化 的 两 种 方式 为 用 户 提供 CpG 岛 预测 服务 。 在 线 服务 主要 
是 识别 单个 基因 组 区 域 中 的 CpG 岛 ,提供 了 两 种 提交 数据 的 方式 : 一 种 是 提交 基因 组 一 段 序 
列 的 位 置信 息 ,算法 将 在 后 台 访 问 UCSC 数 据 提取 相应 物种 基因 组 区 域 的 序列 ; 一 种 是 直接 输 
入 已 经 获取 的 FASTA 格 式 的 序列 或 上 传 FASTA 格 式 的 文件 。 如 输入 人 类 1 号 染色 体 10 014 500 
到 10 036 800 的 基因 组 位 置 ,结果 页 将 列 出 这 段 区 域 中 的 每 个 CpG 岛 的 位 置 .长 度 、CpG 数 目 、 
GC 含 量 和 序列 信息 ,将 之 下 载 到 本 地 进行 进一步 的 分 析 。 此 外 ,本 地 化 软件 能 够 对 各 哺乳 动 
物 全 基因 组 的 CpG 岛 进行 预测 。CpG_MI 提 供 了 10 种 哺乳 动物 基因 组 中 预测 的 CpG 岛 的 下 载 
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以 及 在 UCSC 浏 览 器 上 的 可 视 化 信息 。 基 于 Web 的 和 本 地 化 命令 行 的 CpG_MI 软 件 的 下 载 及 
更 多 说 明 可 以 访问 其 官方 网 站 http: //bioinfo.hrbmu.edu.cn/cpgmi/。 





^ 


CpG MI: Identifying Functional CpG Island using Mutual Information 


| 
_CpG_MI provides a useful information-theoretic tool to identify functional CpG islands from the CpG chusterings in the bulk genomes. The CpG islands of | 
f 

| 


length, mimber of CpGs, G+C content and CpG O/E of the CpG islands. z) 


| 
Download the command-line version of CpG Mi for long sequences. - | eee LU Ee | 
] 
Submit a sequence by genomic coordinates: | 


Species. Chr(ie2) Stat End Chain(s-) 
HumanMar2008 (91) =~ SSS 
Paste sequences in FASTA format: 
Mee. Human Mar. 2006 (hg18) - 
(om) (i) 





图 11-11 CpG_MI 在 线 软件 
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Section 4 Identification of aberrant epigenetic biomarkers 


一 `DNA 甲 基 化 谱 的 特征 在 疾病 中 的 应 用 >> 


(一 ) DNA 甲 基 化 应 用 于 疾病 风险 评估 


DNA 甲 基 化 通常 存在 两 种 潜在 的 风险 评估 方式 即 组 成 性 的 异常 DNA 甲 基 化 检测 和 能 
够 预兆 疾病 发 展 的 获得 性 变异 的 检测 。 前 者 与 表 观 变异 的 隔 代 传递 相关 。 尽 管 表 观 遗传 标 
记 的 复位 发 生 在 种 系 中 ,使 得 在 亲本 和 后 代 之 间 的 表 观 遗传 的 遗传 率 高 度 变化 ,但 是 组 成 性 
的 表 观 遗传 变异 在 某 些 个 体 中 是 明显 的 ,能 够 遗传 的 或 者 是 一 种 后 天 种 系 缺 陷 。 解 释 这 种 
现象 的 临床 实例 是 HNPCC(the autosomal dominant hereditary nonpolysis colorectal syndrome ) 
综合 征 , 受 累 个 体 在 较 早 的 年 龄 就 高 度 易 患 结 肠 癌 和 子宫 内 膜 癌 。 潜 在 的 基因 包括 MLHI， 
MSH2, MSH6 和 和 PMS2。 值 得 注意 的 是 一 小 部 分 患 有 HNPCC 的 个 体 中 发 现在 这 些 基因 中 没 
有 一 个 发 生 序列 突变 ,而 发 现 MLHI 或 MSH2 启 动 子 甲 基 化 也 出 现在 正常 组 织 中 ,包括 循环 
血 白细胞 。 在 MSH2 的 研究 中 ,发 现 MSH2 邻 近 基因 7T4CSTD1 的 突变 ,通过 启动 子 和 相关 的 
DNA 超 甲 基 化 导致 异常 转录 。MLHI 中 没有 发 现 类 似 的 突变 ,因此 呈现 出 一 种 罕见 的 遗传 种 
系 缺陷 。 

组 成 性 表 观 遗传 变异 (epimutations ) 也 能 够 偶然 发 生 在 邻近 启动 子 区 域 并 导致 获得 
DNA 甲 基 化 倾向 的 以 单 碱 基 多 态 性 形式 的 遗传 变异 产生 。 这 种 现象 倾向 于 通过 破坏 反 式 作 
用 保护 蛋白 的 结合 而 发 生 ,如 Sp1。 因 此 , 表 观 遗传 修饰 的 隔 代 遗传 力 能 够 通过 顺 式 调控 之 
间或 者 表 观 遗传 自身 的 传送 而 形成 ,但 是 家 族 性 癌症 倾向 很 少 仅仅 有 表 观 遗传 现象 相关 的 
情况 。 

癌症 风险 评估 的 第 二 个 方法 是 基于 正常 和 倾向 性 组 织 的 甲 基 化 研究 来 检测 获得 性 表 观 
遗传 变异 。 例 如 ,在 肺癌 中 ,吸烟 者 的 瘤 前 病变 发 现 p16 的 甲 基 化 ,而 在 非 吸 烟 者 中 没有 发 现 
该 基因 的 甲 基 化 。 因 此 , p16 甲 基 化 与 其 他 基因 结合 (如 p14, p15, E-cadberin 和 RASSF14 ) 
能 够 被 用 作 生 物 标记 评估 患者 患 有 肺癌 的 风险 ,并且 可 通过 检测 唾液 中 甲 基 化 实现 。 在 一 
项 研究 中 通过 对 98 个 疾病 样本 和 92 个 对 照样 本 的 唾液 中 DNA 甲 基 化 的 分 析 ,发 现 14 个 基因 
的 启动 子 甲 基 化 可 用 于 肺癌 风险 的 评估 ,6 个 基因 的 启动 子 高 甲 基 化 被 发 现 与 超过 50% 的 肺 
癌 发 展 风险 相关 ,这 6 个 基因 中 的 3 个 或 更 多 基因 的 共同 高 甲 基 化 使 肺癌 发 生 几 率 达 6.5 售 ， 
灵敏 度 和 特异 性 在 65% 的 范围 之 内 。 值 得 注意 的 是 在 肺癌 的 临床 发 生 之 前 的 几 年 间 , 在 唾 
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液 中 可 探测 到 p16 和 MGMT 高 甲 基 化 。 

男 一 个 例子 ,在 结肠 癌 患 者 间 发 现 癌 组 织 和 癌 旁 组 织 中 同时 出 现 IGF M (insulin-like 
growth factor II ) 这 个 基因 的 印记 缺失 。7GF 太 的 印记 缺失 在 外 周 血 淋巴 细胞 中 也 被 发 现 , 通 
过 测定 TGF 了 的 印记 状态 能 够 预测 结肠 瘤 发 生 的 风险 。 在 结肠 中 ,正常 组 织 中 年 龄 相关 的 甲 
基 化 能 够 被 打上 标记 癌症 风险 相关 的 区 域 缺陷 ,并 且 这 个 区 域 能 够 成 为 一 个 有 用 的 生物 标 
记 。 由 于 DNA 甲 基 化 能 够 通过 药物 介入 而 发 生 去 甲 基 化 ,因此 在 肿瘤 发 生前 的 阶段 的 检测 
能 够 为 癌症 的 预防 策略 打开 一 扇 门 ,通过 被 动 地 对 被 测试 组 织 严 密 的 检测 (连续 的 结肠 镜 检 
查 /支气管 镜 检 查 法 ,成像 研究 等 ), 或 者 主动 地 使 用 低 甲 基 化 药物 或 染色 质 重 逆 因子 尝试 恢 
复 恶 化 前 的 表 型 。 


(=) DNA 甲 基 化 的 改变 作为 诊断 的 标记 


在 临床 环境 中 的 活检 样本 或 体液 中 检测 出 异常 DNA 甲 基 化 能 够 作为 诊断 生物 标记 ,如 
血清 、 唾 液 . 洗 胃液 , 痰 液 . 尿 液 或 类 便 。 例 如 , GSTPI1 在 人 类 前 列 腺 癌 组 织 样本 中 发 现 启动 
子 区 域 的 高 甲 基 化 ,并 且 在 对 86 个 样本 前 列 腺 癌 的 研究 中 ,检测 出 活 组 织 样本 中 恶性 肿瘤 出 
现 的 敏感 度 为 922% 和 特异 性 为 86%。 相 似 的 ,在 类 便 样本 中 波形 蛋白 甲 基 化 的 出 现 被 发 现在 
诊断 结肠 癌 方 面 敏 感性 为 46% 和 特异 性 为 90%。 

单一 标记 特异 性 的 缺陷 能 够 通过 使 用 一 组 异常 甲 基 化 基因 来 补偿 。 来 自 175 个 患者 和 
94 个 对 照 的 尿 沉 积 物 DNA 的 检测 中 发 现 有 9 个 基因 甲 基 化 能 够 预测 膀胱 癌 , 敏 感性 为 82%， 
特异 性 为 96%。 使 用 DNA 甲 基 化 作为 疾病 诊断 和 评估 的 生物 标记 的 一 个 局 限 性 是 来 源 于 瘤 
前 病变 的 异常 甲 基 化 或 者 年 龄 相关 的 异常 甲 基 化 的 可 能 性 。 目 前 公布 的 研究 表明 这 是 一 种 
较 好 的 阳性 预测 值 的 方法 ,有 很 高 的 敏感 性 和 特异 性 。 


(=) DNA 甲 基 化 谱 的 特征 在 疾病 分 型 中 的 应 用 


表 观 遗传 调控 在 癌症 的 发 生 和 发 展 过 程 中 所 起 到 的 作用 已 经 广泛 被 关注 。CpG 的 甲 
基 化 是 在 哺乳 动物 基因 组 中 是 最 典型 的 表 观 遗传 变化 。 通 过 CpG 岛 超 甲 基 化 导致 的 基因 
沉默 是 肿瘤 中 常 发 生 的 事件 。 此 外 ,特殊 基因 的 超 甲 基 化 ,例如 ,在 结肠 癌 的 研究 中 , ERa, 
MYODI1 和 N33 常常 发 生 在 老龄 化 个 体 的 结肠 组 织 中 。 因 此 , 表 观 遗传 变异 的 早期 发 现 提出 
这 样 一 个 假说 ,它们 允许 随后 影响 肿瘤 发 生 和 发 展 的 遗传 和 表 观 遗传 变异 的 积累 。 重 要 的 
是 , 某 些 个 体 表 现 出 有 倾向 性 的 异常 启动 子 超 甲 基 化 ,包括 一 些 肿瘤 抑制 基因 。 这 种 现象 ， 
被 称 为 CpG 岛 甲 基 化 显 性 CIMP ,提供 一 个 导致 结肠 癌 的 男 外 的 途径 。 一 些 研 究 已 经 将 CIMP 
与 遗传 特征 和 临床 特征 相关 联 , 包 括 BR4F 和 KR4S 高 的 突变 率 , p53 低 的 突变 率 ,具体 的 组 织 
学 ,家族 性 事件 和 不 寻常 的 临床 事件 。 . 

Shen 等 人 分 析 97 个 原 发 的 结肠 癌 患 者 的 遗传 ( BRAF, KRAS, p53 和 微 卫 星 不 稳定 性 ) 和 
表 观 遗传 变异 ( 27 个 CpG 岛 启动 子 区 的 DNA 甲 基 化 )。 基 于 表 观 遗传 的 DNA 甲 基 化 谱 和 遗传 
的 基因 表达 谱 的 两 个 聚 类 分 析 识别 出 带 有 截然 不 同 的 分 子 特征 的 亚 型 。DNA 甲 基 化 的 无 监 
督 分 层 聚 类 识别 出 三 个 结肠 癌 的 分 类 ,分 别 为 CIMP1、CIMP2 和 CIMP-negation。 在 遗传 学 上 ， 
这 三 个 分 类 与 三 个 截然 不 同 的 基因 表达 谱 相 一 致 。CIMP1 以 MSZ( 80% ) 和 BRAF( 53% ) 的 
变异 和 少量 的 KRAS( 16% ) 和 p53( 11% ) 变异 为 特征 。CIMP2 与 92% 的 KRAS 变 异 和 少量 的 
MSI、BRAF、p53 变 异 ( 0,4%,31% ) 有 关 。CIMP-negative 有 高 的 p53 变异 的 比率 ( 71% ) 和 较 
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低 的 MSIT、 BRAF、KRAS 变 异 的 比率 ( 12%,2%,33% )。 基 于 表 观 遗传 和 遗传 特征 的 聚 类 也 识 
别 了 三 个 分 类 ,这 三 个 分 类 与 之 前 的 分 类 有 很 大 程度 上 的 重 和 至 。 这 三 个 分 类 不 依赖 于 年 龄 、 
性 别 和 阶段 ,但 CIMP1 和 CIMP2 在 近 端 肿瘤 中 更 常见 。 


(四 ) DNA 甲 基 化 改变 与 治疗 反应 的 评估 


甲 基 化 模式 能 够 用 于 评估 临床 效果 和 对 化 疗 治 疗 药物 的 应 答 。 通 常 ,高 DNA 甲 基 化 模 
式 与 较 差 的 预后 相关 ,如 在 肺癌 或 骨髓 增生 异常 综合 征 。 一 项 51 个 非 小 细胞 肺癌 I 阶段 样 
本 和 116 个 对 照样 本 的 实验 中 ,在 组 织 和 淋巴 结 样本 中 检测 7 个 基因 的 启动 子 甲 基 化 状态 与 
NSCLC 复 发 的 相关 性 。 这 些 基 因 中 的 4 个 基因 的 甲 基 化 ( P16, CDHI3, RASSFIARIAPC ) 表 
明 与 肿瘤 发 生 的 独立 相关 性 , P16 和 CDHI13 的 甲 基 化 被 发 现在 训练 集 和 结合 训练 集 和 验证 
集 的 集合 中 分 别 是 15.5 和 25.25 的 比值 。 相 似 的 ,通过 一 组 对 10 个 基因 的 研究 评估 , 当 比 较 
于 低 水 平 甲 基 化 的 患者 ,高 水 平 甲 基 化 的 MDS 患 者 被 发 现 有 较 短 的 中 值 存活 数 ( 12.3 个 月 vs 
17.54 H , p-0.04 ) 和 较 短 的 无 进展 生存 期 ( 6.4 个 月 vs 14.9 个 月 ,p=0.009 )。 

然而 ,在 一 些 例子 中 ,强烈 的 高 甲 基 化 定义 了 一 个 特别 的 癌症 子 集 , 有 一 个 较 好 的 预后 。 
结肠 癌 的 研究 中 ,多 基因 的 CpG 岛 甲 基 化 被 命名 为 CIMP, 与 MLHI 甲 基 化 相关 ,导致 了 较 好 
的 预后 。CIMP 最 近 也 在 多 形 性 胶 质 母 细 胞 瘤 中 被 研究 ,在 这 个 研究 中 CIMP 也 被 发 现 与 较 好 
的 预后 相关 ; 比较 于 CIMP-negative 样 本 , CIMP-positive 样 本 在 诊断 时 显著 的 比较 年 轻 (平均 
年 龄 36 岁 vs 59 岁 ), 与 DH1 体 细胞 突变 紧密 相关 ,并 且 有 显著 好 的 生存 时 期 。 

甲 基 化 也 能 够 用 作 预 测 生物 标记 。 例 如 ,在 角质 母 细 胞 瘤 中 , MGMT DNA 修 复 基因 的 甲 
基 化 被 报告 对 替 莫 哗 咬 有 较 好 的 应 答 相 关 及 较 好 的 临床 结果 相关 。 的 确 , MGMT 启 动 子 甲 
基 化 ,出 现在 大 约 45% 的 样本 中 , ASE A ESAT AY) BA fb AR ASE , A MGMT 
甲 基 化 的 患者 中 , 替 莫 唑 咬 治 疗效 果 明 显 减少 。 这 些 数据 表明 肿瘤 甲 基 化 谱 能 够 有 效用 于 
风险 分 类 和 用 于 治疗 的 确定 。 





二 、 整 合 遗传 与 表 观 遗传 特征 识别 疾病 相关 基因 》》 


经 典 的 遗传 与 表 观 遗传 是 一 个 事物 的 两 个 方面 ,二 者 相互 依存 而 又 相互 区 别 地 构成 一 
个 整体 ,这 样 人 类 基因 组 就 包含 两 个 信息 。 遗 传 学 提供 合成 生命 所 必需 的 蛋白 质 的 模板 ,而 
表 观 遗传 学 的 信息 则 提供 了 何 时 、 何 地 以 及 如 何 应 用 上 述 遗 传 学 信息 的 指令 。 整 个 基因 组 
通过 DNA 精 确 地 复制 转录 、 翻 译 ,保证 了 遗传 信息 的 稳定 性 和 连续 性 ,同时 又 通过 表 观 遗传 
学 机 制 ,使 基因 组 在 内 外 环境 条 件 下 选择 性 地 表达 信息 ,最 终 形成 遗传 性 状 。 

过 去 人 研究 者 们 主要 关注 于 癌症 在 遗传 方面 变异 的 研究 ,各 种 关于 况 症 的 研究 识别 了 大 
量 的 与 癌症 相关 的 遗传 突变 基因 。 随 着 对 癌症 研究 的 逐渐 深入 以 及 表 观 遗传 学 的 发 展 , 人 
们 了 解 遗 传 突变 和 表 观 遗传 变异 共同 导致 了 癌症 的 发 生 与 发 展 。 

Goh 等 人 使 用 基因 组 特征 对 癌症 的 超 甲 基 化 基因 进行 排 秩 。 他 们 使 用 计算 的 方法 对 实 
验证 实 的 癌症 超 甲 基 化 基因 进行 排 秩 。 为 了 构建 判别 模型 ,他 们 同时 选择 基因 组 范围 的 基 
因 作为 对 照 ,识别 过 甲 基 化 基因 作为 潜在 的 诊断 和 预后 的 生物 标记 。 

Yang 等 人 开发 了 一 个 名 为 PGnet 的 算法 ,并 构建 了 一 个 包含 表 型 ,基因 和 表 观 遗传 调控 
相关 的 机 制 锚 定 网 络 。 研 究 了 132 个 ( 9 种 不 同 表 型 和 三 种 对 治疗 响应 的 度量 ) 急 性 淋巴 细 
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胞 白血病 (ALL ) 微 阵列 。 通 过 随机 抽样 可 以 从 ALL 表 型 得 到 一 个 稳定 的 子 网 。 使 用 这 个 稳 
定 的 网 络 对 ALL 复 发 进行 预测 ,结果 评估 是 显著 的 (p=0.03 )。DNA 启 动 子 区 域 的 CpG 岛 甲 基 
化 是 导致 癌症 中 异常 基因 表达 的 一 个 机 制 。 

Loss 等 人 利用 logistic 回 归 模 型 构建 基因 启动 子 区 域 甲 基 化 与 表达 之 间 的 关系 并 对 其 排 
秩 ,在 45 个 乳腺 癌 细 胞 系 中 识别 了 58 个 基因 作为 表 观 遗传 调控 的 基因 。Cui 等 人 构建 了 一 个 
手工 获得 的 人 类 信号 网 络 ,将 一 组 癌症 突变 基因 和 一 组 癌症 相关 的 甲 基 化 异常 基因 即 应 映 
射 到 信号 网 络 中 。 研 究 发 现 癌症 突变 基因 主要 富 集 在 正 向 信和 号 调节 通路 中 ,而 甲 基 化 异常 
基因 主要 的 富 集 在 癌症 细胞 中 负 向 调节 通路 中 。 

Liu 等 人 利用 网 络 理论 并 结合 表 观 遗传 和 遗传 特征 ,在 癌症 中 识别 甲 基 化 异常 的 基因 
〈 见 实例 2 )。 他 们 整合 文献 证 实 的 蛋白 质 互 作 数据 和 DNA 甲 基 化 数据 ,构建 人 类 加 权 网 络 
(WHPN )。WHPN 呈 现 了 基因 对 间 的 NDA 甲 基 化 水 平 的 相互 关系 。 在 这 个 网 络 中 ,利用 获得 
的 癌症 相关 甲 基 化 异常 基因 ,获得 一 个 与 癌症 紧密 相关 的 子 网 络 ( CASN )。 通 过 比较 网 络 的 
拓扑 特征 ,发现 CASN 有 比 WHPN 更 加 紧密 的 网 络 结构 。 利 用 邻接 加 权 规 则 在 子 网 络 识别 了 
154 个 潜在 的 癌症 相关 的 甲 基 化 异常 基因 。 发 现 这 个 基因 主要 参与 调节 细胞 凋 亡 的 生物 学 
过 程 ,并 且 其 中 很 多 基因 在 癌症 会 发 生 不 同 程度 的 差异 表达 。 最 后 ,通过 结合 手动 确认 的 文 
本 挖掘 ,发 现 这 些 识别 的 潜在 癌症 相关 的 甲 基 化 异常 基因 中 ,一 些 能 够 作为 癌症 诊断 和 预后 
的 生物 标记 ,以 及 药物 应 答 靶 点 。 
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Section 5 The human epigenome project and its significance 


一 、 表 观 基 因 组 计划 介绍 >> 


(一 ) 人 类 表 观 基因 组 计划 (human epigenome project, HEP) 


开始 于 1999 年 的 第 一 个 国际 性 表 观 基因 组 计划 即 人 类 表 观 基因 组 计划 , 目的 是 公布 在 
人 类 健康 组 织 和 细胞 中 生成 从 识别 出 的 可 变 甲 基 化 位 置 而 产生 的 人 类 DNA 甲 基 化 参考 图 
谱 。HEP 利 用 高 通 量 亚 硫 酸 盐 PCR Sanger 测序 方法 绘制 了 人 类 12 个 组 织 和 细胞 中 3 条 染色 
体 的 DNA 甲 基 化 图 谱 。 一 些 研究 工作 利用 HEP 的 数据 分 析 发 现 DNA 甲 基 化 有 组 织 特异 性 、 
在 进化 保守 区 域 频繁 发 生 改变 .个 体 发 育 过 程 中 相对 稳定 等 现象 。 在 以 后 的 研究 中 ,为 了 完 
善 HEP 的 数据 , Down 等 人 利用 MeDIP-chip 实 验 绘制 了 16 个 组 织 或 细胞 的 DNA 甲 基 化 图 谱 ， 
Rakyan 等 人 使 用 MeDIP-seq 绘制 了 第 一 个 人 类 全 基因 组 的 甲 基 化 图 谱 。 


(Z) 癌症 基因 组 图 谱 (the cancer genome atlas, TCGA) 


由 美国 发 起 的 TCGA 计 划 是 第 一 个 从 遗传 学 及 表 观 遗传 学 两 个 方面 的 变化 来 考察 人 
类 癌症 ,目前 已 经 收集 了 比较 全 面 的 胶 质 瘤 、 肺 疤 和 卵巢 癌 的 数据 ,其 他 癌症 的 数据 正在 不 
断 更 新 ,计划 在 今后 的 5 年 将 公布 超过 20 种 肿瘤 及 成 千 个 样本 的 遗传 学 及 表 观 遗传 学 数据 。 
TCGA 提 供 了 更 深刻 的 理解 人 类 癌症 基因 组 及 表 观 基因 组 的 改变 在 癌症 发 生发 展 中 的 作用 。 


(=) NIH 表 观 基 因 组 路 线 图 计划 (RoadMap Initiative) 


NIH 表 观 基因 组 路 线 图 的 目的 是 以 人 类 胚胎 干细胞 为 中 心 开 发 广泛 的 表 观 基因 组 图 谱 
以 及 开发 新 的 工具 用 于 分 析 这 些 数据 ,解决 人 类 健康 和 疾病 的 表 观 遗传 学 研究 中 过 到 的 各 
种 问题 。 该 表 观 基因 组 学 项 目的 目标 是 : 中 创建 国际 化 的 表 观 基因 组 研究 协会 ; QI Rn 
准 的 表 观 基因 组 学 研究 平台 软件 以 及 研究 标准 ; @ 实 施 规范 性 规则 评估 表 观 基因 组 的 改 
变 ; @ 开 发 新 的 技术 用 于 单 细 胞 的 表 观 基因 组 分 析 及 活体 组 织 表 观 遗 传 活性 的 图 像 ; OE 
立 一 个 公共 的 数据 资源 加 快 表 观 基因 组 数据 及 方法 的 应 用 。 这 个 计划 已 经 成 功 的 应 用 在 单 
碱 基 水 平 胚胎 干细胞 和 分 化 的 成 纤维 细胞 的 甲 基 化 图 谱 的 绘制 和 分 析 。 


(四 ) 国际 人 类 表 观 基因 组 协会 (international human epigenome consortium, IHEC) 


IHEC 是 从 2010 年 开始 发 起 ,目的 是 产生 1000 个 人 类 和 非 人 类 的 参考 表 观 基因 组 图 谱 ， 
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图 谱 广 泛 涉 及 各 种 组 织 和 细胞 \ 干 细胞 、 环 境 和 疾病 (包括 癌症 ) 状态 下 表 观 基因 组 图 谱 的 
大 量 数据 。 该 协会 要 建立 一 个 表 观 基因 组 研究 的 公共 交流 平台 ,如 培育 表 观 基因 组 研究 团 
体 ` 组 织 各 种 学 术 会 议 为 低 年 资 的 研究 者 搭建 研究 平台 以 及 为 外 界 人 士 建 立 普及 性 网 站 等 
工作 。 





二 、 环 境 表 观 基因 组 与 人 类 疾病 》》 


暴露 在 有 害 物 质 的 环境 里 会 导致 表 观 遗传 的 改变 , 随 着 发 育 中 哺乳 动物 表 观 基因 组 程 
序 的 变化 , 表 观 遗传 进程 适应 包括 环境 饮食 甚至 是 行为 等 外 在 因素 的 变化 。 这 种 可 塑性 被 
认为 是 生物 体 迅 速 响应 和 适应 外 界 刺激 的 反映 ,但 也 赋予 生物 体 甚至 是 它们 的 后 代 记忆 的 
能 力 ( 如 果 这 样 的 刺激 接触 是 在 成 年 时 接触 到 的 )。 最 近 的 哺乳 动物 系统 研究 提供 了 这 个 与 
遗传 的 新 达尔 文理 念 相对 的 亚 稳 态 的 明确 例子 ,特别 是 大 量 证 据 表 明 胎 儿 所 处 的 环境 影响 
表 观 遗传 进程 导致 成 长 过 程 中 对 慢性 疾病 易 感 性 的 增加 。 这 些 结果 对 于 人 类 健康 有 着 重大 
影响 且 提 供 人 类 表 观 基因 组 图 谱 绘 制 的 进一步 的 推动 力 。 

双 酚 A 诱导 的 胎儿 表 观 基因 组 中 低 甲 基 化 能 够 通过 孕妇 膳食 补充 而 使 甲 基 供 体 被 消 
除 ,表明 饮食 的 变化 可 以 抵消 环境 毒物 对 于 发 育 中 的 胎儿 的 潜在 有 害 影响 。 通 过 怀孕 和 断 
奶 期 间 改变 孕妇 营养 的 模仿 人 类 病理 的 动物 模型 对 于 染色 质 的 表 观 遗传 修饰 和 后 代表 型 的 
后 续 影 响 一 直 表现 出 连续 的 显著 反应 。 例 如 ,子宫 胎盘 功能 不 全 能 降低 后 代 肾 脏 的 DNMTI 
活性 ,造成 p53 启动 子 的 低 甲 基 化 和 p53 表达 的 增加 ,有 助 于 提高 p53- 介 导 的 细胞 凋 亡 从 而 降 
低 肾 小 球 数 且 引起 高 血压 。 产 妇 高 脂肪 的 饮食 有 利于 增加 组 蛋白 H3 乙 酰 化 和 降低 组 蛋白 
去 乙酰 化 活性 增加 , 和 胎儿 脂 质 代谢 障碍 代谢 相关 基因 表达 的 增加 相 一 致 。 这 些 和 其 余 类 
似 的 研究 明确 表示 产妇 营养 环境 能 显著 影响 胎儿 表 观 基因 组 ,直接 有 利于 后 代 的 健康 。 

尽管 产妇 营养 对 于 子宫 内 胚胎 发 育 的 表 观 遗传 学 修饰 有 作用 ,母体 的 行为 能 改变 新 生 
儿 的 基因 表达 的 表 观 遗传 模式 ,一 旦 建立 ,会 坚持 到 成 年 。 综 上 ,这 些 研 究 的 结果 导致 了 由 
生物 体 在 发 育 的 特别 脆弱 或 是 表 观 遗传 不 稳定 时 期 由 环境 引起 的 表 观 遗传 修饰 参与 人 类 疾 
病 的 病原 学 ,在 这 些 关 键 的 发 育 窗口 处 这 可 能 由 膳食 补充 轻而易举 地 预防 。 


三 人 类 的 表 观 基因 组 关联 研究 >> 


人 类 复杂 疾病 的 遗传 和 非 遗 传 决定 因素 是 生物 学 研究 的 一 个 重大 挑战 。 最 近 几 年 ， 
GWAS 已 经 发 现 超过 150 种 疾病 的 多 于 800 个 相关 SNP 和 其 他 特征 。 虽 然 对 于 人 类 复杂 疾病 
的 完全 遗传 基础 还 是 未 知 的 ,但 重新 排序 外 显 子 和 最 后 的 全 基因 组 分 析 有 助 于 识别 大 多 
数 致 病 的 遗传 变异 。 然 而 ,现在 发 现 非 遗 传 变异 ,包括 表 观 遗传 修饰 的 因素 ,能 够 对 复杂 
疾病 的 病原 学 研究 及 发 展 提供 帮助 。 因 此 在 2008 年 表 观 基因 组 关联 分 析 ( epigenome-wide 
association study, EWAS ) 第 一 次 被 提出 。 由 于 DNA 甲 基 化 检测 技术 的 成 熟 ,使 EWAS 研 究 成 
为 可 能 。 

目前 表 观 遗传 学 标记 的 完整 图 谱 还 不 是 很 清楚 ,但 是 人 们 推测 这 个 数据 可 能 是 巨大 的 ， 
就 二 倍 体 人 类 表 观 基因 组 包括 >108Cs( 其 中 >107 是 CpGs ) 并且 >108 组 蛋白 尾部 有 可 能 发 生 
共 价 修饰 。 在 一 个 单独 CpG 位 点 上 的 DNAm 变 异 ,被 认为 是 一 个 甲 基 化 变异 位 点 ( methylation 
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variable positions, MVP ), 可 以 被 认为 是 一 个 SNP 的 表 观 遗传 学 等 价 物 。 在 复杂 疾病 中 DNAm 
变异 的 角色 ,已 经 大 体 上 在 癌症 中 有 了 探索 ,可 以 被 看 作 是 早期 EWAS 人 研究 。 这 些 研究 中 发 
现 ,癌症 发 展 和 CGIs 上 DNAm 的 增加 、 印 记 缺 失 和 表 观 遗传 重复 元 件 的 重组 有 关 , 尤 其 是 微 
卫星 DNA 上 DNAm 的 缺失 。 糖 尿 病 或 者 自身 免疫 性 疾病 中 表 观 遗传 学 成 分 包括 以 下 方面 。 
第 一 ,任何 复杂 疾病 的 同 卵 双胞胎 的 一 致 性 是 几乎 从 来 没有 100%。 最 近 , 系 统 性 红斑 狼疮 
和 自 闭 症 不 一 致 的 同 卵 双胞胎 的 小 规模 EWASs, 已 经 发 现 同 卵 双胞胎 内 的 疾病 相关 的 表 观 
遗传 差异 。 第 二 , 几 个 复杂 疾病 的 发 生 率 , 例 如 1 型 糖尿 病 , 在 一 般 人 群 中 上 升 , 并 且 在 流动 
人 口中 频繁 变异 ,暗示 了 非 遗传 因素 的 一 个 角色 。 第 三 ,流行 病 学 证 据说 明 一 个 次 优 的 子宫 
内 或 者 儿童 早期 环境 ,能 够 对 成 年 期 疾病 的 结果 有 影响 (例如 2 型 糖尿 病 ), 这 个 现象 术语 叫 
做 “发育 重 编程 ( developmental reprogramming )”。 当 前 ,在 子宫 环境 中 分 子 标记 主要 的 候选 
是 表 观 遗传 学 修饰 ,包括 DNAm。 

潜在 的 基因 型 影响 表 观 遗传 变异 ,如 同 最 近 几 个 研究 论证 的 。 位 点 隐匿 的 遗传 变异 ， 
影响 甲 基 化 状态 ,被 称 做 甲 基 化 数量 性 状 位 点 ( methQTLs )。 在 大 多 数 methQTLs 中 , cis- 
genotype 的 相关 是 最 显著 的 。 在 trans 中 ,有 一 些 证 据 表 明 ,遗传 变异 也 能 够 影响 表 观 遗传 状 
态 , 但 是 这 似乎 不 像 cis-effects 那 样 普遍 。 要 重点 注意 的 是 ,大 多 数 前 人 研究 中 ,遗传 变异 的 
真正 原因 是 未 明确 识别 出 来 的 ,并 且 大 多 数 meQTLs 不 是 通过 严格 cis-genotype 和 epigenotype 
一 对 一 的 相关 识别 出 来 的 ; 而 是 ,一 种 特殊 的 基因 形成 一 个 甲 基 化 增长 的 可 能 性 。Feinberg 
和 Trizarry 最 近 已 经 讨论 了 在 鼠 和 人 类 基因 组 中 遗传 变异 的 证 据 , 不 改变 平均 表 型 but rather 
表 型 的 的 变异 性 ; 这 可 能 通过 异 变 的 甲 基 化 区 域 (VMRs ) 被 表 观 遗传 学 介 导 。MethQTL 的 
存在 为 整合 GWASs 和 EWASs, 来 发 现 基因 型 通过 表 观 遗传 变异 发 挥 它们 的 功能 ,提供 一 个 强 
有 力 的 论据 。 

这 些 methQTLs 也 能 够 影响 等 位 基因 特异 性 甲 基 化 ( ASM )。 关 于 这 点 ,这 种 稳 态 的 甲 基 
化 水 平 在 相同 细胞 中 两 个 等 位 基因 上 不 同 。 然 而 , ASM 也 能 够 发 生 在 一 些 缺乏 任意 特异 的 
基因 型 一 一 表 观 遗传 型 相关 之 中 。 例 如 , 洪 在 的 印记 、X 染 色 体 失 活 和 随机 单 等 位 基因 甲 基 
化 是 ,不 由 甲 基 化 和 非 甲 基 化 等 位 基因 之 间 潜 在 的 基因 型 差异 引起 的 ASM 的 全 部 实例 。 

因此 一 个 细胞 的 表 观 遗传 组 是 高 度 动态 的 , 受 一 种 复杂 的 遗传 和 环境 相互 影响 所 支配 。 
正常 细胞 功能 依赖 于 表 观 遗传 自动 调节 功能 维持 ,这 在 许多 表 观 遗传 扰动 和 人 类 疾病 之 间 
相关 报道 中 突出 显示 ,尤其 是 癌症 。 








490 


第 六 节 


应 用 实例 : 用 于 疾病 的 风险 预测 、 诊 断 、 预 后 
及 治疗 的 表 观 基因 组 数据 分 析 


Section 6 Application examples: Analysis of epigenome data for risk 
prediction, diagnosis, prognosis and therapy of disease 





经 典 的 遗传 学 不 足以 解释 表 型 的 多 变性 ,也 不 能 解释 相同 的 DNA 序 列 、 同 卵 双胞胎 、 克 
隆 动物 各 自 之 间 存 在 的 表 型 差异 和 不 同 的 患 病情 况 。 表 观 遗 传 学 对 这 些 现象 提供 了 部 分 
解释 。DNA 甲 基 化 是 目前 人 们 了 解 最 多 的 表 观 遗传 标记 。 最 开始 发 现 了 人 类 肿瘤 中 DNA 
的 整体 低 甲 基 化 ,后 来 又 发 现 了 高 甲 基 化 的 抑 癌 基 因 , 最 近 , 又 发 现 由 DNA 甲 基 化 导致 的 
microRNA 基因 的 失 活 。 

此 外 ,最 近 的 研究 也 发 现 了 疾病 状态 下 异常 的 组 蛋白 修饰 模式 ,在 人 类 肿瘤 中 ,组 蛋白 
H4 修 饰 呈现 单 乙酰 化 和 三 甲 基 化 的 缺失 ,这 些 变化 发 生 在 早期 且 在 肿瘤 发 生 过 程 中 不 断 积 
累 ,而 且 组 蛋白 修饰 酶 序列 的 表达 量 可 以 用 于 分 类 癌症 。DNA 甲 基 化 和 组 蛋白 修饰 有 潜在 
的 临床 用 途 。DNA 高 甲 基 化 作为 癌症 一 个 标记 ,可 以 在 所 有 类 型 的 体液 和 活体 标本 中 检测 
到 。DNA 甲 基 化 和 组 蛋白 修饰 是 可 逆 的 ,因此 可 以 通过 药物 重新 激活 被 沉默 的 抑 癌 基因 或 
者 抑制 失控 的 致癌 基因 的 表达 。 

有 人 提出 应 用 与 特定 基因 启动 子 结合 的 转录 因子 来 开发 表 观 特异 的 治疗 药物 。 这 些 表 
观 遗 传 调控 机 制 的 前 明 及 疾病 诊断 及 治疗 方面 的 尝试 ,促使 人 们 更 加 深入 地 研究 表 观 遗传 
修饰 在 预测 .诊断 .预后 以 及 治疗 疾病 方面 的 作用 。 下 面 介绍 这 些 研究 中 两 个 典型 的 实例 ， 
以 期 促进 国内 疾病 表 观 遗传 学 的 不 断 发 展 。 


实例 1 人 类 结肠 癌 甲 基 化 组 差异 甲 基 化 分 析 


人 们 已 经 知道 癌症 中 异常 的 DNA 甲 基 化 的 存在 ,包括 致癌 基因 的 低 甲 基 化 和 肿瘤 抑 
制 基因 的 高 甲 基 化 。 然 而 ,大 多 数 癌症 甲 基 化 研究 认为 功能 上 重要 的 甲 基 化 发 生 在 启动 子 
区 域 ,癌症 中 的 DNA 甲 基 化 改变 多 发 生 在 CpG 岛 。 但 还 没有 理解 全 基因 组 癌症 和 正常 分 化 
中 DNA 甲 基 化 缺失 和 获得 的 关系 。 在 这 些 实验 中 ,人 们 关注 三 个 关键 的 问题 。 第 一 ,不 同 
组 织 类 型 的 DNA 甲 基 化 差异 发 生 在 哪儿 ? 该 研究 采用 一 个 全 基因 组 的 方法 -基于 芯片 的 
高 通 量 的 相对 甲 基 化 分 析 ( comprehensive high-throughput array-based relative methylation, 
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CHARM ), 从 5 个 实验 (个 体 ) 中 选用 三 个 正常 组 织 类 型 代表 三 个 胚层 一 肝 ( 内 胚层 ), 脾 脏 ( 中 
胚层 ), 脑 (外 胚层 )。 不 aa 该 研究 是 全 基因 组 的 ,而 且 组 织 来 自 
相同 的 个 体 ,可 以 控制 个 体 间 差 异 的 可 能 性 。 第 二 ,癌症 中 DNA 甲 基 化 改变 发 生 在 哪儿 ? 低 
甲 基 化 和 高 甲 基 化 之 间 的 平衡 是 什么 ?基于 这 个 目的 ,该 研究 检验 13 个 结肠 瘤 和 相应 的 正 
常 黏膜 。 第 三 ,这 些 甲 基 化 变化 的 功能 作用 是 什么 ” 为 此 ,该 研究 进行 小 鼠 组 织 甲 基 化 和 表 
达 分 析 的 比较 表 观 基因 组 研究 。 

该 研究 通过 比较 每 对 组 织 平均 M 值 的 差异 ( AM ) 定量 来 表示 差异 甲 基 化 ,并 发 现 了 识 
别 出 16 379 个 组 织 差异 甲 基 化 区 域 (T_-DMRs ), 大 约 76% 的 T-DMRs 定 位 于 CpG 岛 区 域 2kb 的 
位 置 ,定义 为 CpG 岛 边缘 ; 另外 分 析 同 一 个 体 的 13 个 结肠 癌 和 匹配 的 正常 黏膜 的 DNA 甲 基 
化 ,识别 了 2707 个 在 癌症 中 显示 差异 甲 基 化 的 区 域 ( C-DMRs ), 且 发 现 多 数 结肠 癌 甲 基 化 改 
变 不 发 生 在 启动 子 区 域 ,也 不 在 CpG 岛 ,而 也 在 CpG 岛 边缘 (图 11-12 )。 
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图 11-12 T-DMR 和 CDMR 与 CpG 岛 和 CpG 岛 边缘 相对 位 置 的 分 布 
来 源 于 : Irizarry RA .The human colon cancer methy lome shows similar hypo— 
and hypermethy lation at concerved tissue-specific Gp G island shores. ( 2009 ) Nat 
Genet.2009 ; 41 : 178-186. 


该 研究 还 探讨 这 些 差异 甲 基 化 和 相关 基因 表达 的 功能 关联 。 为 了 研究 组 织 和 癌症 差异 
甲 基 化 ,研究 者 分 析 了 来 自 相 同样 本 的 5$ 个 大 脑 和 肝脏 的 和 4 个 结肠 癌 和 正常 黏膜 组 织 的 基 
因 表 达 。 所 有 的 样本 来 自 基 因 组 甲 基 化 分 析 数 据 。T-DMRs 甲 基 化 和 差异 基因 表达 显示 强 
的 逆 相 关 ( 图 11-13 ), 即 使 这 些 DMRs 不 在 CpG 岛 而 是 在 CpG 岛 边 缘 。 尽 管 C-DMRs 的 数量 比 
T-DMRs 较 少 ,但 也 显示 了 与 基因 表达 差异 的 显著 关联 。 这 些 基 因 表 达 和 CpG 岛 边缘 甲 基 化 
之 间 的 功能 关联 暗示 CpG 岛 边缘 具有 调控 功能 的 可 能 性 。 

”由 于 C-DMRs 和 T_-DMRs 都 定位 于 CpG 岛 shores ,研究 者 又 研究 了 它们 是 否定 位 于 相同 的 
位 置 。 惊 奇 地 发 现 C-DMRs 与 T-DMRs 存 在 显著 地 位 置 重合 ( 45%~65% )。C-DMRs 和 T-DMRs 
的 关联 是 如 此 显著 ,用 C-DMRs 的 平均 M 值 对 大 脑 ,肝脏 和 脾脏 进行 非 监督 聚 类 ,能 很 好 区 
分 这 些 组 织 ( 图 11-14 )。GO 功 能 富 集 分 析 发 现 C-DMRs 富 集 发 育 和 多 能 性 相关 的 基因 。 因 
此 癌症 特异 DNA 甲 基 化 主要 涉及 组 织 间 DNA 甲 基 化 变化 的 相同 位 点 ,尤其 是 与 发 育 相关 
的 基因 ,这 一 结果 表明 表 观 遗传 改变 影响 组 织 特异 分 化 是 表 观 遗传 改变 引发 癌症 的 主要 
机 制 。 
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图 11-13 差异 甲 基 化 与 差异 表达 
来 源 于 : Irizarry RA .The human colon cancer methy lome shows similar hypo-and hypermethy 
lation at concerved tissue-specific Gp G island shores. ( 2009 ) Nat Genet.2009 ; 41 : 178-186. 








图 11-14 C-DMR 甲 基 化 正确 分 类 结肠 癌 以 及 正常 组 织 
来 源 于 : Irizarry RA .The human colon cancer methy lome shows similar hypo—and hypermethy lation 
at concerved tissue-specific Gp G island shores. ( 2009 ) Nat Genet.2009 ; 41 : 178-186. 
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实例 2 ”基于 加 权 和 蛋白 质 互 作 网 络 优选 癌症 相关 甲 基 化 异常 基因 


网 络 理论 为 系统 的 研究 疾病 提供 了 一 个 便利 的 平台 。 基 因 间 复杂 的 关系 能 够 通过 网 络 
理论 清晰 的 呈现 出 来 。 基 于 网 络 理论 ,结合 表 观 遗传 特征 和 遗传 特征 ,识别 癌症 中 发 生 甲 基 
化 异常 的 基因 ,可 能 作为 癌症 诊断 和 预后 的 生物 学 标记 。 该 研究 DNA 甲 基 化 以 及 蛋白质 互 
作 构 建 了 加 权 和 蛋白 质 互 作 网 络 , 并 获取 癌症 相关 子 网 络 ,识别 潜在 的 癌症 相关 的 甲 基 化 异常 
基因 。 在 这 个 研究 中 ,人 们 同样 关注 三 个 主要 的 问题 。 第 一 ,构建 的 加 权 蛋 白质 互 作 网 络 以 
及 癌症 相关 子 网 络 具 有 何 种 特点 ,以 及 它们 之 间 有 何 差 异 。 癌 症 相 关子 网 络 是 否 具 有 实际 
的 意义 。 第 二 ,优选 的 基因 具有 何 种 生物 学 功能 ,是 否 能 够 在 癌症 中 发 生 甲 基 化 的 异常 ,并 
影响 癌症 的 发 生 及 发 展 。 第 三 ,优选 的 基因 是 否 能 够 作为 癌症 诊断 和 预后 的 生物 学 标记 ,以 
及 药物 作用 反应 靶 点 。 该 研究 针对 以 上 问题 进行 了 分 析 。 

该 研究 利用 DNA 甲 基 化 特征 和 蛋白质 互 作 特征 构建 了 加 权 人 类 蛋白质 互 作 网 络 
( WHPN ), 并 通过 种 子 基因 集 在 WHPN 中 获得 了 一 个 癌症 相关 的 子 网 络 ( CASN ) (图 11-15 )。 
这 两 个 网 络 的 拓扑 特征 被 比较 分 析 , 包 括 网 络 的 度 , 聚 类 系数 和 平均 路 径 长 度 , 结 果 表 明 
CASN 有 比 WHPN 更 加 紧密 的 网 络 结构 ,并 显著 于 随机 情况 。 通 常 认为 在 对 相似 疾病 表 型 有 
贡献 的 突变 的 蛋白 质 之 间 经 常 发 生 直接 的 或 者 间接 地 互 作 。 瘤 证 被 认为 是 一 些 相关 通路 的 
失调 引起 的 结果 ,因此 如 果 一 个 基因 在 PPI 网 络 中 与 癌症 基因 接近 , 则 认为 它 更 有 可 能 参与 
癌症 的 一 系列 事件 。 而 子 网 络 中 的 基因 都 是 与 甲 基 化 异常 癌症 基因 相关 的 基因 ,这 些 基因 
与 种 子 基因 一 样 有 可 能 参与 相同 或 相似 的 生物 学 过 程 ,因而 在 癌症 中 可 能 同样 发 生 甲 基 化 
水 平 的 改变 。 

该 研究 利用 邻接 加 权 规 则 在 CASN 网 络 中 识别 了 154 个 洪 在 的 癌症 相关 甲 基 化 异常 基 
因 。 这 些 基 因 主 要 参与 调控 有 关 调 控 细胞 凋 亡 及 程序 性 死亡 的 生物 学 过 程 和 p53 signaling 
pathway 和 Wnt signaling pathway 等 癌症 相关 通路 。 这 些 结果 表明 这 些 基因 可 能 在 癌症 相关 的 





图 11-15 WHPN 网 络 和 CASN 网 络 
来 源 于 : Liu H .Priontizing cancer-related genes with aberrant methylation based on a weighted 
protein-protein interaction network.BMC Syst Biol.2011:155-158. 
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生物 学 过 程 及 通路 中 发 生 异 常 ,产生 甲 基 化 水 平 的 异常 变化 从 而 影响 癌症 的 发 生 以 及 发 展 。 
通过 对 相关 癌症 表达 谱 的 SAM( significant analysis of microarrays ) 分 析 发 现 , 优 选 基因 集中 的 
一 部 分 基因 能 够 在 相应 癌症 中 发 生 表达 的 异常 。 

该 研究 通过 搜索 PubMed 评 估 了 优选 基因 与 癌症 的 关系 。 结 果 发 现 其 中 43 个 基因 在 发 
表 的 文献 中 与 各 种 癌症 以 及 甲 基 化 异常 相关 ,其 中 10 个 基因 被 报道 在 癌症 中 会 发 生 甲 基 化 
的 异常 现象 ( 表 11-5 )。 然 后 通过 对 PubMed 自 动 化 的 搜索 以 及 手工 校对 ,发 现 27 个 优选 基因 
能 够 作为 癌症 以 及 其 他 复杂 疾病 的 诊断 标记 ,20 个 优选 基因 能 够 作为 预后 标记 。 最 终 ,将 优 
选 基因 匹配 DrugBank 药 物 标点 列表 ,发 现 31 个 优选 基因 能 够 作为 药物 反应 的 应 答 靶 点 。 这 
些 结果 表明 优选 基因 可 能 在 癌症 中 发 生 甲 基 化 异常 ,导致 基因 表达 的 活化 或 抑制 ,作用 于 癌 
症 的 发 生 以 及 发 展 ,是 癌症 潜在 的 诊断 和 预后 标记 。 


表 11-5 通过 PubMed 文 献 证 实 的 疾病 诊断 预后 标记 基因 及 潜在 的 药物 靶 点 基因 


基因 名 Entrez 基 因 编 号 诊断 标记 预后 标记 药物 靶 点 
CREBBP 1387 A [o 
EP300 2033 A * 
HIF1A 3091 大 (o) 
PRMTI 3276 A * [o 
PML 5371 * 
medl 5469 [o 
tp63 8626 A * 
PRKCDBP 112 464 A 
MANEAL 149 175 
Rasef 158 158 


it. 数据 来 源 : Liu H .Priontizing cancer-related genes with aberrant methylation based on a 
weighted protein-protein interaction network.BMC Syst Biol.2011:155-158. 


(9E X 刘 洪 波 ) 
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传统 的 药物 研发 模式 育 目 , 耗 时 耗资 巨大 ,成 功率 低 , 甚 至 有 些 药物 上 市 后 由 于 严 
重 不 良 反应 而 惨遭 淘汰 。 随 着 基因 组 学 、 转 录 组 学 蛋白 组 学 、 代 谢 组 学 和 变异 组 学 等 
组 学 的 莲 勃 发 展 , 产 生 了 大 量 的 高 通 量 数据 资源 以 及 相应 的 分 析 技 术 , 其 成 果 不 仅 给 
人 类 认识 自身 本 质 和 疾病 发 生机 制 提 供 了 新 的 机 遇 , 同 时 还 为 制药 工业 带 来 了 前 所 未 
有 的 机 会 和 全 新 的 药物 研发 理念 

在 药物 的 研发 过 程 中 ,药物 生物 信息 学 的 技术 和 手段 可 以 明确 靶 点 、 早 期 预测 药 
物 的 成 药性 ,并 预测 药物 适合 人 和 群 ,体现 了 药物 生物 信息 学 在 药物 研发 领域 的 巨大 优 
势 ,使 之 成 为 后 基因 组 时 代 最 引 人 瞩 目 、 发 展 最 迅速 的 学 科 之 一 。2003 年 美国 FDA 发 行 
J "Draft guidance for Industry Pharmacogenomic Data Submission” , 我国 也 在 2007 年 首次 
把 药物 生物 信息 学 研究 计划 纳入 了 863 项 目 。 

药物 生物 信息 学 是 一 个 将 信息 学 和 计算 机 科学 的 原理 和 技术 应 用 于 药物 发 现 和 
药物 防治 的 一 门 新 学 科 。 它 整合 了 多 学 科 的 原理 和 方法 如 生物 信息 学 、 化 学 信息 学 、 
化 学 基因 组 学 以 及 其 他 发 展 完 善 的 学 科 , 如 药理 学 、 药 物化 学 、 理 论 化 学 和 药学 实践 
等 ,从 系统 和 全 局 的 角度 为 制药 行业 提供 理论 与 技术 工具 ,这 是 传统 药学 无 法 比拟 的 

尽管 药物 生物 信息 学 在 药物 研发 的 各 个 阶段 体现 了 极 大 优势 ,但 由 于 本 书 篇 幅 所 
限 , 本 章 只 向 大 家 介绍 三 方面 内 容 : 药学 相关 信息 资源 ; 生物 信息 学 方法 鉴别 和 验证 药 
物 靶 标 ; 个 性 化 给 药 基础 一 一 药物 基因 组 学 。 
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第 一 节 
药学 相关 信息 资源 


Section 1 Bioinformatics Resources of Pharmaceuticals 
一 药物 综合 信息 数据 库 >> 


DrugBank( http: //www.drugbank.ca/ ) 为 综合 性 免费 药物 信息 资源 ,和 覆盖 大 量 药 物 及 其 
骤 标 相关 人 信息。 截止 到 2012 年 3 月 ,数据 库 中 包含 有 6711 条 药物 的 相关 条 目 信 息 , 其 中 包括 
FDA 批 准 的 1441 种 小 分 子 药物 134 种 蛋白 质 和 多 肽 类 生物 技术 药物 .84 种 营养 制品 和 5084 
种 处 于 实验 研究 阶段 的 药物 。 除 此 之 外 ,数据 库 还 提供 了 4231 条 非 兄 余 的 与 药物 相关 的 蛋 
白质 序列 信息 (如 药物 的 作用 靶 标 .代谢 酶 .转运 蛋白 .载体 ). 每 种 药物 提供 了 150 多 项 信息 ， 
包括 药物 名 称 ,化 学 结构 .蛋白 和 DNA 序 列 以 及 药理 学 ,药物 经 济 学 药物 间 相 互 作用 OUS, 
相关 的 酶 FUE TER AE SS PE 药物 副 反 应 和 相关 文献 的 链接 等 。 

DrugBank 数 据 库 的 设计 者 之 一 , David Wishart 博 士 认 为 DrugBank 数 据 库 是 目前 唯一 一 
个 融合 了 生物 信息 学 和 化 学 信息 学 知识 的 数据 库 , 是 将 药物 的 详细 信息 与 药物 广泛 作用 的 
Hina SWRA o 

DrugBank 数 据 库 提供 多 种 浏览 .查询 的 方式 ,便于 访问 者 对 相关 知识 进行 查询 和 了 解 。 
图 12-1 是 DrugBank 数 据 库 的 主 界面 。 











Search About Downloads Contact Us 


Search: ( Search | [Advanced] 


The DrugBank database is a unique bioinformatics and cheminformatics resource that 
combines detailed drug (ie. chemical, pharmacological and pharmaceutical) data with 
comprehensive drug target (i.e. sequence, structure, and pathway) information. The database 
contains nearly 4800 drug entries including »1,350 FDA-approved small molecule drugs, 123 
FDA-approved biotech (protein/peptide) drugs, 71 nutraceuticals and >3,243 experimental 
drugs. Additionally, more than 2,500 non-redundant protein (i.e. drug target) sequences are 
linked to these FDA approved drug entries. Each DrugCard entry contains more than 100 data 
fields with half of the information being devoted to drug/chemical data and the other half 
devoted to drug target or protein data 


DrugBank is supported by David Wishart, Departments of Computing Science & Biological 
Sciences. University of Alberta 





图 12-1 Drugbank 主 页 界面 








二 、 与 药物 靶 点 发 现 相关 数据 库 >> 


(一 ) 疾病 相关 的 基因 数据 库 


目前 ,已 有 一 些 数据 库存 储 了 与 疾病 相关 的 基因 信息 ,方便 研究 人 员 对 相关 基因 或 蛋 
白质 进行 查询 和 比较 。 与 人 类 疾病 相关 的 基因 以 及 基因 敲 除 时 的 异常 情况 存储 在 online 
mendelian inheritance in man( OMIM, http: //www.ncbi.nlm.nih.gov/omim/ ), entrez gene ( http: // 
www.ncbi.nlm.nih.gov/gene/ ), the human gene mutation ( http: //www.hgmd.cf.ac.uk/ac/index. 
php ), catalogue of somatic mutations in cancer ( COSMIC, http: //www.sanger.ac.uk/genetics/CGP/ 
cosmic/ ) 和 cancer gene census ( http: //www.sanger.ac.uk/genetics/CGP/Census/ ) 等 数据 库 中 。 
其 中 , OMIM 数 据 库 是 分 子 遗 传 学 领域 最 重要 的 生物 信息 学 数据 库 之 一 ,是 人 类 基因 和 遗传 
性 疾病 的 电子 目录 ,提供 疾病 与 基因 .文献 .序列 记录 染色体 定 位 及 相关 数据 库 的 链接 等 内 
容 。 该 数据 库 可 以 通过 ENTREZ 进 行 搜索 ,并 且 利 用 “limit” 选项 限制 所 搜索 的 染色 体位 置 
或 类 别 等 内 容 。COSMIC 数 据 库 存储 了 癌症 相关 的 候选 基因 ,提供 体内 基因 敲 除 信息 以 及 人 
类 癌症 的 相关 细节 。cancer gene census 数 据 库 对 癌症 相关 的 基因 进行 分 类 ,这 些 基因 在 殴 除 
时 与 癌症 表现 出 可 能 的 因果 关联 。 其 中 的 GeneRif 系 统 可 以 提供 与 疾病 高 度 相 关 基因 的 注 
释 信 息 。 此 外 ,基因 组 规模 的 关联 数据 库 .遗传 关联 数据 库 和 小 鼠 基 因 效 除数 据 库 等 也 为 基 
因 查 询 提供 了 丰富 的 注释 信息 。 


(二 ) 疾病 相关 的 基因 芯片 数据 库 


基因 芯片 数据 是 药物 靶 标 发 现 的 重要 来 源 , 人 们 已 经 建立 了 一 些 专门 的 数据 库 用 于 存 
储 疾 病 相 关 的 基因 芯片 数据 。gene expression omnibus( GEO, http: //www.ncbi.nlm.nih.gov/ 
geo/ ) 作为 存储 基因 芯片 的 主要 数据 库 资 源 ,包含 了 丰富 的 癌症 相关 的 基因 芯片 数据 。 当 
以 “Homosapiens” 和 “Cancer” 作 为 关键 词 进行 查询 时 ,返回 了 350 个 数据 集 。2003 年 10 月 ， 
Daniel 等 建立 了 ONCOMINE 数据 库 ( http: //www.oncomine.org/ ), 专门 收集 癌症 相关 的 基因 
芯片 数据 集 ,提供 在 线 的 数据 挖掘 和 基因 组 规模 的 表达 分 析 。 在 ONCOMINE 数据 库 的 三 个 
版 本 中 ,包含 了 264 个 基因 表达 数据 集 ,超过 2 万 个 癌症 组 织 和 正常 组 织 的 样本 数据 。 其 他 
基因 芯片 数据 库 包括 斯 坦 福 基 因 芯 片 数 据 库 ( http: //genome-wwwS.stanford.edu/MicroA rray/ 
SMD/ )、EBI 芯 片 表达 数据 库 ( http: //www.ebi.ac.uk/arrayexpress/ ), 以 及 MIT 癌症 基因 组 工程 
( http: //www.broad.mit.edu/cancer/ ) 等 。 


(=) 候选 靶 点 信息 资源 


治疗 靶 点 数据 库 ( therapeutic target database, TTD, http: //bidd.nus.edu.sg/group/c;jttd/ ) 是 
一 个 免费 的 数据 库 ,覆盖 了 2025 个 药物 靶 点 (包括 364 个 确认 靶 点 ,286 个 试验 阶段 靶 点 及 
1331 个 研究 靶 点 ) 及 靶 点 相关 疾病 和 信号 通路 ,同时 包含 17 816 个 药物 / 配 体 ( 包 括 FDA 认 
可 药物 1540 种 ,临床 试验 阶段 药物 1423 种 ,实验 研究 阶段 药物 14 853 种 ; 其 中 有 小 分 子 药物 
14 170 种 , 反 义 核酸 类 药物 652 种 ), 同 时 提供 链接 到 其 他 数据 库 , 以 方便 检索 蛋白 功能 、 氨 基 
酸 序列 ,三维 结构 信息 , 配 体 结合 特性 .药物 结构 ,治疗 应 用 等 内 容 。TTD 虽 然 设计 目的 是 专 
门 化 数据 库 ,但 是 实际 上 也 是 一 个 关于 药物 的 综合 性 数据 库 。 
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non-redundant databases( NRDB, http: //linux.mlst.net/nrdb/nrdb.htm/ ) 由 NCBI 建 立 ,数据 
3K A genpept ( genBank CDS 自 动 翻译 的 数据 库 )、 PDB 序列 数据 库 、SWISS-PROT 数 据 库 等 ,是 
比较 完全 且 包 含 最 新 信息 的 蛋白 质数 据 库 ,是 检索 药物 靶 点 的 主要 信息 来 源 。 实 际 上 NRDB 
中 仍然 有 一 些 元 余 信息 。 田 外 , NRDB 数 据 库 也 被 作为 NCBI 提 供 的 BLAST 算 法 搜索 服务 时 
检索 的 默认 数据 库 。 

潜在 药物 靶 点 数据 库 ( potential drug target database, PDTD, http: //www.ddde.ac.cn/pdtd/ ) 


向 对 接 筛选 候选 药物 靶 点 软件 常 选用 的 数据 库 之 一 。 此 数据 库 目 前 包括 1207 个 晶体 结构 数 
据 ,涵盖 了 841 种 不 同 药物 靶 点 。 这 些 靶 点 按照 治疗 应 用 领域 和 靶 点 的 生物 化 学 性 质 分 成 十 
多 类 ,支持 多 种 检索 方式 ,并 可 链接 到 其 他 数据 库 。 

蛋白 质 信息 学 资源 ( protein—informatics—resource, PIR, http: //pir.georgetown.edu/ ), 该 数 
据 库 提供 通用 的 蛋白 质 序 列 和 功能 数据 ,并 链接 到 UniProtIKB( http: //www.uniprot.org/help/ 
uniprotkb ) 等 多 个 数据 库 。 此 数据 库 的 特色 是 可 提供 详细 全 面 的 蛋白 质 功 能 分 类 数据 ,其 中 
包含 药物 靶 点 蛋白 质 的 数据 。 


(四 ) 与 发 现 药 靶 相 关 生 物 学 功能 数据 库 


药物 靶 标 通常 具有 特定 的 生物 学 功能 ,分 析 基 因 的 分 子 类 型 (例如 酶 信 亚 细胞 定位 ( 例 
如 细胞 表面 ) 和 生物 学 通路 (例如 血管 新 生 ) 对 于 预测 潜在 药 靶 具有 重要 意义 。 基 因 本 体 论 
gene ontology( GO, http: //www.geneontology.org/ ) 和 京都 基因 与 基因 组 百科 全 书 数 据 库 kyoto 
encyclopedia of genesand genomes pathways( KEGG, http: //www.genome.ad.jp/kegg/ ) 提供 了 多 个 
物种 中 基因 的 生物 学 功能 .定位 和 通路 信息 。 同 时 ,有 关 和 蛋白 质 相 互 作用 网 络 和 生物 学 通路 
的 数据 库 资源 非常 丰富 ,如 database of interacting proteins( DIP, http: //dip.doe-mbi.ucla.edu/dip/ 
Main.cgi/ ), reactome ( http: //www.reactome.org/ReactomeGWT/entrypoint.html/ ), nature pathway 
interaction database( NCI, http: //pid.nci.nih.gov/ ), human protein reference database( HPRD, http: 
/Inprd.org/ ) 和 Biocarta( http: //www.biocarta.com/ ) 等 ,更 多 的 数据 库 列 表 可 以 参考 http: /www- 
pathguide.org/。 此 外 ,有 些 数据 库 专门 存储 生物 学 网 络 的 定量 数据 资源 ,例如 bioModels( http: 
/Iwww.ebi.ac.uk/biomodels—main/ ) 和 JWS online( http: //jjj-biochem.sun.ac.za/database/ ) 数据 库 ， 
收集 了 各 种 化 学 反应 网 络 的 数学 模型 ,并且 规 模 一直 在 稳步 增加 。 


(五 ) 不 良 反应 数据 库 


Side effect resource( SIDER, http: //sideeffects.embl.de/ ) 为 药物 不 良 反应 数据 库 , 包 含 了 
药物 和 副 反 应 的 相关 信息 。 该 数据 库 包含 了 888 种 药物 的 相关 条 目 信息 (798 种 FDA 批 准 的 
药物 和 90 种 非 FDA 批 准 的 药物 )、1450 种 不 同 的 不 良 反 应 和 62 269 个 药物 -不 良 反应 关系 对 。 

数据 库 采 用 文本 挖掘 的 方法 对 多 种 资源 的 数据 进行 整理 ,同时 给 出 了 药物 -不 良 反应 对 
的 不 良 反 应 发 生 频 率 信息 。 数 据 库 将 不 良 反 应 的 发 生 率 分 成 以 下 几 个 等 级 : postmarketing 、 
rare ( <0.1% ) infrequent ( 0.1% to 196 ), frequent ( 1% to 100% ), 

用 户 可 从 数据 库 中 获得 以 下 信息 : 药物 相关 的 不 良 反 应 药物 化 学 结构 35) 25] RR 
标 、 可 产生 同 种 不 良 反 应 的 药物 .具有 相同 不 良 反 应 特征 的 药物 、 人 群 服用 药物 产生 不 良 反 
应 的 概率 以 及 施用 安慰 剂 作为 对 照 组 时 产生 该 不 良 反 应 的 概率 等 。 
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同时 ,从 search tool for interactions of chemicals ( STITCH, http: //stitch.embl.de/ ), PubChem 


(http: //pubchem.ncbi.nlm.nih.gov/ ), Wikipedia 和 Medpedia 中 都 可 以 获得 不 良 反 应 以 及 药物 相 
关 药 理 作用 的 描述 信息 。 图 12-2 是 SIDER 数 据 库 的 主 界面 。 


Home Drug list Side Effects Downlc 


About 


S ! D E R 2 SIDER contains information on marketed medicines and their recorded adverse drug re 


information is extracted from public documents and package inserts. The available informa 
Side Effect Resource side effect frequency, drug and side effect classifications as well as links to further infq 


example drug-target relations 





图 12-2 SIDER 主 页 界面 


(六 ) 药物 相互 作用 查询 数据 库 


Cytochrome P450 database ( SuperCYP, http: //bioinformatics.charite.de/supercyp/ ), 是 基于 
细胞 色素 P450 酶 来 分 析 药 物 间 的 相互 作用 的 数据 库 。 该 数据 库 收录 了 1170 种 药物 的 信息 、 
2785 种 基于 细胞 色素 P450 酶 产生 的 药物 相互 作用 、57 种 人 类 CYP 家 族 酶 的 信息 和 1200 个 等 
位 基因 信息 。 对 具有 相同 代谢 酶 的 药物 ,数据 库 会 提供 出 同类 替代 药 的 建议 。 图 12-3 为 数 
据 库 的 主页 面 。 


SuperCYP 





Cytochrome P450 database 


» Drug search 
» peg cis This database contains about 1,170 drugs. 2.785 Cytochrome-Drug interactions and about 
> 1.200 alleles 
> ATC tree 
CYP 
> CYP-drug interaction 
» Polymorphism 
> Alignments - 
> 3D structures 
» Browse 
> Phase 2 enzymes 
> Transporter 
> Prodrugs 
> Upload 
> Statistics 
> FAQs 
> Links 
> Contact 





图 12-3 SuperCYP 数 据 库 主页 
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数据 库 对 基于 CYP450 产 生 的 药物 相互 作用 分 为 五 种 情况 ,并 给 出 了 相关 的 用 药 建 
议 。 有 具体 分 类 情况 如 图 12-4 所 示 : CDsubstrate-substrate ( 底 物 - 底 物 ) 关系 , 即 如 果 多 种 同 
为 CYP 同 一 代谢 酶 底 物 的 药物 联合 应 用 时 ,很 可 能 由 于 它们 之 间 对 酶 的 竞争 使 得 药物 代谢 
被 抑制 ,药物 会 在 组 织 器 官 中 停留 更 长 时 间 , 故 建议 需要 降低 药物 使 用 的 剂量 ; Dinhibitor— 
substrate( 抑 制剂 - 底 物 ) 关 系 ,建议 此 种 关系 药物 联合 用 药 时 ,要 降低 药物 的 使 用 剂量 ; 
(inducer-substrate( 诱 导 剂 - 底 物 ) 关 系 ,此 种 关系 药物 联合 用 药 时 ,因为 代谢 酶 被 激活 ， 
药物 排出 体外 会 加 快 , 故 建议 增加 药物 的 使 用 剂量 ; @inducer-inducer( 诱 导 剂 -诱导 剂 ) 
关系 ,建议 此 种 关系 药物 联合 用 药 时 , 若 想 达 到 正常 治疗 效果 ,需要 增加 药物 的 使 用 剂量 ; 
G@)inhibitor-inhibitor( 抑 制剂 -抑制 剂 ) 关系 ,两 个 代谢 酶 的 抑制 剂 联合 应 用 时 ,代谢 酶 的 活 
性 被 抑制 ,药物 在 体内 组 织 器 官 的 存留 时 间 长 , 故 建议 降低 药物 的 使 用 剂量 ,避免 药物 蓄积 
产生 相关 的 不 良 反 应 。 





Substrate-Substrate Interaction 
Inhibitor-Substrate Interaction 
Inducer-Substrate Interaction 
Inhibitor-Inhibitor te Interaction 


Inducer-Inducer Interaction 


图 12-4 SuperCYP 数 据 库 中 药物 相互 作用 情况 分 类 


SuperCYP 数 据 库 中 分 别 用 s 标 识 substrate( 底 物 ), inh 标 识 inhibitor( 抑 制剂 ) 和 ind 标 识 
inducer( 诱 导 剂 )。 在 查询 结果 中 ,点 击 相关 的 标识 会 直接 给 出 PUBMED 的 文献 来 源 链接 , 方 
便 访 问 者 进行 查询 。 在 给 出 相关 替代 药物 时 ,标志 为 绿色 的 药物 是 可 供 选 择 的 替代 药物 。 


(七 ) 药物 基因 组 学 数据 库 


药物 基因 组 学 数据 库 (the pharmacogenetics and pharmacogenomics knowledge base, 
PharmGKB, http: //www.pharmgkb.org/ ), 是 基于 遗传 药理 学 ,药物 遗传 学 和 药物 基因 组 学 知 
识 所 建立 起 来 的 ,主要 是 用 来 收集 分析、 记录 和 传播 遗传 药理 学 和 药物 基因 组 学 的 主要 数 
据 和 相关 知识 的 数据 库 , 所 以 它 是 药物 基因 组 学 的 代表 性 数据 库 。 图 12-5 是 PharmGKB 的 
主页 界面 。 

PharmCKB 数 据 库 从 单 核 苷 酸 基因 多 态 性 (SNP )\ 临 床 的 药物 基因 组 相关 知识 、 通 路 信 
息 ,药物 和 小 分 子 信息 .药物 基因 组 学 相关 的 基因 信息 和 与 疾病 相关 的 药物 基因 组 学 信息 这 
六 方面 的 内 容 对 药物 基因 组 学 进行 了 描述 。 


UO 疾病 -基因 一 药物 联通 图 

The connectivity map ( CMAP, http: //www.broad.mit.edu/cmap/ ), 是 应 用 全 基因 组 转录 谱 
系统 全 面 地 描述 生理 .疾病 和 药物 诱导 等 生物 学 状态 ,以 CSEA( gene set enrichment analysis ) 
算法 提取 并 比较 这 些 生 物 学 状态 的 基因 表达 标识 ,将 相同 ( 似 ) 或 相反 功能 药物 ,药物 适用 疾 
病 .药物 作用 途径 (基因 .通路 ) 联 系 起 来 。 
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$» PharmGKB Pharmacogenomics. Knowledge. Implementation. 
N The Pharmacogenomics Knowledgebase PharmGKB is a comprehensive resource that curates knowledge about the impact 


of genetic variation on drug response for clinicians and researchers. 





AboutUs *  News& Events - Projects Search» Download Help 


Search PharmGKB Submit 


What is the PharmGKB? 
Find out how we go from extraction of 
gene-drug relationships in the literature 
to implementation of pharmacogenomics 
in the clinic... 


Find out more 





CPIC Simvastatin/SLCO1B1 Guideline 


New VDR VIP Publication 





图 12-5 PharmGKB 数 据 库 的 主页 界面 


CMAP 数 据 库 的 构建 是 基于 联通 图 的 基本 假设 ,假设 药物 刺激 前 后 全 基因 组 范围 的 基因 
表达 都 将 会 发 生 改变 ,这 种 改变 能 够 从 本 质 上 反映 生物 体系 统 对 药物 的 应 答 情 况 即 对 药物 
的 反应 状态 ,从 而 可 以 代表 药物 的 药理 活性 特征 。 这 种 描述 药物 特征 的 策略 从 药物 作用 本 
质 出 发 ,关注 分 子 水 平 的 变化 ,基于 全 基因 组 水 平 , 因 此 很 具有 系统 性 。 

图 12-6 举 例 描 述 了 联通 图 的 基本 原理 。 用 基因 芯片 检测 某 未 知 功 能 化 合 物 刺 激 前 后 生 
物体 (人 、 鼠 、 细 胞 系 ) 的 全 基因 组 表达 水 平 ,比较 刺激 前 后 的 表达 谱 水 平 ,采用 生物 信息 学 
方法 提取 基因 组 标识 。 然 后 ,将 差异 表达 基因 标识 录入 到 数据 库 的 查询 界面 中 ,数据 库 采 用 
GSEA 算 法 评价 此 标识 与 库 中 药物 标识 的 相似 性 ,输出 与 已 知 药物 功能 相关 联 的 药物 ,作用 
越 相似 的 排序 越 靠 前 ,作用 越 相反 的 排序 越 靠 后 ,从 而 推 知已 知 药物 的 未 知 功 能 。 在 图 12-6 
中 ,绿色 区 域 越 上 端的 药物 与 已 知 药物 的 作用 机 制 等 越 相 近 , 红 色 区 域 越 下 端的 药物 与 已 知 
药物 作用 机 制 越 相反 。 


Y, 


» 
SM 
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图 12-6 联通 图 的 基本 原理 
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CMAP 数 据 库 主 要 用 于 发 现 共享 作 用 机 制 和 生化 进程 的 小 分 子 ,疾病 和 药物 之 间 的 关联 
性 ,可 以 用 于 确认 药物 的 作用 机 制 \ 发 现 已 上 市 药物 的 其 他 作用 、 预 测 未 知 作用 机 制药 物 的 
机 制 \ 研 究 疾病 的 生理 机 制 等 。 

图 12-7 是 CMAP 数 据 库 的 登陆 主 界面 ,该 数据 库 提 供 相关 数据 信息 和 查询 结果 的 免费 
下 载 ,但 是 需要 注册 后 登陆 。 将 注册 的 用 户 名 和 密码 输入 后 进入 数据 库 主 界面 , 见 图 12-8。 





iz CONN: ECTVITY Map 02 


ak a. iis zu ik Y m i Tr TN 











username: | 


password: 
email me my password | register as a new user 


图 12-7 CMAP 数 据 库 的 登陆 主 界面 
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instances query results admin downloads help 


> quick query 


for signatures available locally as .grp files; results are 'temporary' 


> load signature 
upload and describe a signature 


> signature query 
for use with pre-loaded signatures 


> instance query 
generate a signature from cmap instances; results are 'temporary' 


图 12-8 CMAP 数 据 库 的 主 界面 





第 二 节 
基于 生物 信息 学 方法 发 现 潜 在 药物 靶 标 





Section 2 ” Bioinformatics-based approach to identify potential drug targets 


建立 系统 .高效 的 药物 研发 创新 体系 是 后 基因 组 时 代 具 有 挑战 意义 的 任务 。 发 现 并 验 
证 药物 新 靶 标 是 研发 创新 药物 的 首要 工作 ,人 类 基因 组 计划 的 完成 推动 了 基因 组 学 ,蛋白 组 
学 和 代谢 组 学 的 发 展 ,为 寻找 药物 靶 标 带 来 了 新 的 机 遇 , 而 在 高 通 量 数据 分 析 方 面 显示 巨大 
优势 的 生物 信息 学 技术 已 成 为 从 庞大 的 组 学 数据 中 挖掘 药物 靶 标 信息 的 一 种 重要 手段 。 

在 药物 刘 标 发 现 的 过 程 中 ,生物 信息 学 方法 发 挥 了 不 可 蔡 代 的 重要 的 作用 ,尤其 适用 于 
大 规模 多 组 学 数据 的 分 析 。 目 前 ,已 涌现 了 许多 与 疾病 相关 的 数据 库 资源 ,基于 生物 网 络 特 
征 ,生物 芯片 、 蛋 白质 组 .代谢 组 数据 等 建立 了 多 种 生物 信息 学 方法 发 现 潜 在 的 药物 靶 标 ,并 
预测 靶 标 可 药性 和 药物 副作用 。 

药物 靶 标 是 指 体内 具有 药 效 功能 并 能 被 药物 作用 的 生物 大 分 子 , 如 某 些 蛋 白质 和 核酸 
等 生物 大 分 子 。 事 先 确定 靶 向 特定 疾病 有 关 的 靶 标 分 子 是 现代 新 药 开 发 的 基础 。 在 药物 发 
现 的 漫长 过 程 中 , 药 靶 发 现 是 非常 重要 的 一 个 限 速 步 又。 药 靶 筛选 和 功能 研究 是 发 现 特异 
的 高 效 、 低 毒性 药物 的 前 提 。 

靶 标 发 现 与 确证 的 一 般 流 程 ( 图 12-9 ) 是 : 利用 基因 组 学 、 蛋 白质 组 学 以 及 生物 芯片 技 
术 等 获取 疾病 相关 的 生物 分 子 信息 ,并 进行 生物 信息 学 分 析 ; 然后 对 相关 的 生物 分 子 进行 功 







生物 信息 学 分 析 
功能 研究 
确定 候选 药物 靶 标 


TUS uE 


图 12-9 BAe & 9,— 48 dE 
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EDT IE , EIRE WE HUS PIREA Ein, Bit NA T EI ,在 分 子 、 细 
胞 和 整体 动物 水 平 上 进行 药理 学 研究 ; ER AE 

常见 的 用 于 药 靶 发 现 的 实验 方法 包括 : 微生物 基因 组 学 差异 蛋白 质 组 学 、 磁 共振 
CMR ) 技术、 细胞 芯片 技术 、RNAi 技 术 、 基 因 转 染 技术 和 基因 散 除 动物 等 。 随 着 组 学 数据 的 
积累 , 仅 赁 实验 方法 已 经 不 能 满足 高 通 量 大 规模 数据 分 析 的 需求 。 

在 药物 研发 过 程 中 ,生物 信息 学 方法 对 于 相关 数据 的 存储 分 析 和 处 理 , 以 及 如 何 有 效 
地 发 现 和 验证 新 的 药 靶 ,发 挥 了 重要 的 作用 。 

本 节 主 要 基于 疾病 相关 的 基因 数据 库 、 候 选 药 靶 数 据 库 和 基因 芯片 数据 库 等 资源 基础 
上 ,讨论 基于 多 种 组 学 数据 进行 药物 划 标 发 现 的 生物 信息 学 方法 ,如 基于 基因 组 基因 表达 
谱 、 和 蛋白 质 组 代谢 组 的 方法 以 及 整合 多 组 学 数据 的 系统 生物 学 方法 ,最 后 描述 生物 信息 学 
方法 在 药物 靶 标 验证 方面 的 应 用 ,主要 是 预测 蛋白 质 可 药性 以 及 药物 副作用 。 


一 \ 用 于 药 靶 发 现 的 生物 信息 学 方法 》》) 
(一 ) 基因 组 方法 


丰富 的 基因 组 学 数据 为 药 靶 发 现 提供 了 基础 ,目前 已 有 多 种 方法 可 用 于 寻找 新 的 药物 
EER SLE ,最 常用 的 方法 是 同 源 搜索 ,采用 序列 比 对 软件 寻找 候选 基因 与 已 知 癌症 基因 之 
间 的 序列 同 源 性 ,如 BLAST 或 基于 隐 马 尔 科 夫 的 HMMER 软 件 包 等 。 然 而 ,新 的 靶 标 与 已 知 
癌症 基因 的 序列 可 能 并 不 相似 。 因 此 ,有 必要 分 析 已 知 药 靶 中 更 为 普遍 的 结构 特征 ,如 信号 
上 肽 、 跨 膜 结构 域 或 蛋白 激酶 域 ,此 类 生物 信息 学 工具 包括 预测 信号 肽 的 SignalP 和 预测 跨 膜 结 
构 域 的 TMHMM。 此 外 ,还 可 以 使 用 基因 预测 程序 从 人 类 基因 组 序列 中 预测 新 基因 ,寻找 全 
新 的 药物 靶 标 ,常用 的 程序 是 Genescan 和 Grail。 

通过 单 基因 裔 除 实验 能 够 发 现 生 物体 中 的 必要 基因 ( essential gene )。 但 以 必要 基因 作 
为 癌症 治疗 的 靶 标 不 仅 能 杀 死 癌 细 胞 ,对 于 健康 细胞 也 可 能 是 致命 的 。 因 此 ,大 多 数 以 单 基 
因 作 为 对 标的 药物 治疗 是 失败 的 , 双 基 因 的 合成 致死 性 ( synthetic lethal ) 为 抗 癌 药物 的 研究 
提供 了 新 的 前 景 。 给 定 一 个 癌症 相关 的 基因 ,如 果 该 基因 在 癌 细 胞 中 功能 缺失 或 者 功能 降 
低 ,那么 以 它 的 合成 致死 对 象 作为 药 靶 就 能 构成 肿瘤 细胞 的 致死 条 件 , 同 时 降低 对 健康 细胞 
的 损伤 。 目 前 , 仅 在 酵母 中 通过 大 规模 的 实验 建立 了 全 基因 组 的 合成 致死 网 络 。 通 过 同 源 
预测 等 方法 , Conde-Pueyo 等 重建 了 人 的 基因 合成 致死 网 络 ,为 抗 瘤 研究 中 候选 基因 部 标的 
筛选 提供 依据 。 目 前 已 知 的 单 基 因 病 种 类 较 少 , 仅 限 于 基因 组 方法 得 到 的 药物 竟 标 作 用 效 
果 往 往 不 够 理想 。 随 着 后 基因 组 时 代 的 到 来 ,其 他 组 学 数据 在 药物 靶 标 发 现 中 发 挥 了 越 来 
越 重要 的 作用 。 


(二 ) 基因 芯片 方法 


基因 芯片 技术 指 将 大 量 (通常 每 平方 厘米 点 阵 密 度 高 于 400 ) 探 针 分 子 固定 于 支持 物 上 
与 标记 的 样品 分 子 进行 杂交 ,检测 每 个 探 针 分 子 的 杂交 信号 强度 ,进而 获取 样品 分 子 的 数量 
和 序列 信息 。 由 于 基因 芯片 技术 的 高 通 量 \ 快 速 平 行 化 等 特点 ,使 得 疾病 相关 的 基因 芯片 数 
据 资 源 非常 丰富 ,利用 基因 芯片 数据 挖掘 潜在 药物 靶 标 成 为 一 种 重要 的 途径 。 例 如 ,在 CEO 
数据 库 的 基础 上 , Hu 等 建立 了 大 规模 的 疾病 - 药物 对 应 网 络 ,帮助 有 效 地 识别 药物 靶 标 。 


i 
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但 由 于 基因 芯片 本 身 存 在 重复 性 较 差 和 数据 质量 不 高 等 问题 ,需要 发 展 多 种 有 效 的 分 
析 方 法 ,尤其 是 能 够 处 理 多 个 数据 集 、 对 噪声 不 敏感 的 统计 方法 ,以 提取 海量 数据 中 蕴含 的 
有 用 信息 。 

1. 基于 比较 基因 芯片 数据 “基因 芯片 能 够 一 次 性 地 记录 疾病 状态 下 成 千 上 万 个 基因 的 
变化 情况 。 通 过 比较 疾病 组 与 正常 组 的 基因 芯片 数据 ,寻找 显著 差异 的 基因 集合 ,可 用 于 预 
测 相关 的 生物 标志 物 或 药物 靶 标 。 其 中 ,寻找 差异 表达 基因 的 计算 方法 很 多 ,最 直接 的 方法 
是 测量 变化 倍数 , 即 计算 两 个 样本 之 间 同 一 个 基因 的 表达 量 之 比 。 尽 管 变化 倍数 方法 直观 
有 效 ,但 是 该 方法 没有 考虑 噪声 和 生物 学 可 变性 ,尤其 是 癌症 这 种 本 质 上 多 相 异 质 的 复杂 
病 。 因 此 ,更 加 通用 的 办 法 是 采用 尽 可 能 多 的 疾病 样本 进行 统计 学 分 析 , 如 ANOVA 和 T-like 
检验 等 。 由 于 单个 基因 难以 检测 疾病 状态 下 翻译 模型 的 变化 ,生物 标志 物 通常 包括 一 组 基 
因 ,需要 一 定 的 聚 类 方法 寻找 相关 基因 的 组 合 。 如 CSEA 方 法 能 够 评估 两 种 生物 学 状态 下 一 
组 基因 集合 的 统计 显著 性 ,已 广泛 地 应 用 于 基因 芯片 数据 的 分 析 。 

2. 多 种 来 源 的 基因 芯片 数据 的 整合 由 于 单个 芯片 数据 本 身 存在 的 噪声 及 系统 偏 
差 ,预测 结果 往往 存在 误差 。 因 此 ,最 新 的 研究 通过 整合 不 同 实验 来 源 的 多 组 基因 芯片 的 
数据 ,减少 单个 芯片 实验 中 的 误差 影响 ,寻找 更 加 通用 的 生物 标志 物 和 药物 靶 标 。 数 据 
整合 的 目的 是 将 不 同 来 源 的 芯片 数据 进行 处 理 , 使 得 相同 基因 的 数据 可 以 相互 比较 。 在 
预 处 理 过 程 中 ,不 同 的 标准 化 方法 会 影响 不 同 来 源 的 芯片 数据 之 间 的 可 比 性 。Autio - 
比较 了 来 自 于 5 个 芯片 组 的 6926 个 基因 表达 数据 ,评估 5 种 标准 化 方法 的 应 用 效果 。 经 
过 研究 发 现 ,采用 AGC 方法 (array generation based gene centering normalization ) 先进 行 
样本 内 标准 化 再 进行 样本 间 的 标准 化 时 ,能 够 得 到 最 好 的 预 处 理 结果 , 即 在 数 千 个 样本 
之 间 得 到 可 比较 的 基因 表达 量 。 此 外 , Stafford 等 从 以 下 3 方面 对 8 种 常用 的 标准 化 方 
法 进行 比较 : 敏感 性 和 通用 性 、 功 能 / 生物 学 解释 以 及 特征 选择 和 分 类 错误 ,方便 用 户 挑 
选 合 适 的 标准 化 方法 进行 跨 实 验 室 . 跨 平 台 的 基因 芯片 表达 数据 的 比较 。 采 用 一 定 的 
统计 方法 对 不 同 来 源 的 芯片 数据 进行 整合 ,可 以 在 进行 更 少 实 验 的 情况 下 更 好 地 利用 
已 有 芯片 数据 ,有 助 于 发 现 多 种 瘤 症 样本 中 共同 的 生物 标志 物 以 及 某 种 癌症 特异 的 生 
物 标志 物 ,其 中 ,最 简单 的 方法 是 Z 打分 归 一 化 。 较 复杂 的 方法 是 提取 不 同 数据 集中 表 
达 数 据 的 分 布 特征 参数 ,根据 这 些 特定 的 参数 进行 数据 集 匹 配 ,包括 : DistanceWeighted 
Discrimination, Combatting Batcheffects , disTran、 Median Rank Score, Quantile Discretizing 
和 Z 打分 变换 等 。 其 中 ,经 典 方法 的 是 Daniel 553g 8 H8 Hi HS AE 5} Pr Meta-analysis ) 77 
法 。 利 用 ONCOMINE 数据 库 , 他 们 收集 了 40 个 独立 数据 集 (超过 3700 个 芯片 实验 ), 提 
出 了 一 种 独立 于 单个 数据 集 的 统计 量 Q-value, 寻 找 多 种 来 源 数据 集中 显著 差异 表达 的 
基因 作为 苓 萃 标 志 物 ( Meta-signature )。 此 后 ,多 基因 芯片 融合 方法 得 到 了 普遍 关注 ,各 
种 统计 方法 被 用 于 发 现 通用 标志 物 并 与 Meta-analysis 方法 进行 比较 。 例 如 , Xu 等 收集 
和 整合 了 26 个 公开 发 表 的 癌症 数据 集 ,包括 21 个 主要 的 人 类 癌症 类 型 的 1 500 个 基因 芯 
片 数据 ,应 用 TSPG( top-scoring pair of groups ) 分 类 器 和 重复 随机 采样 策略 ,识别 通用 的 
癌症 标志 物 。 评 估 结 果 表 明 ,采用 一 tt d rat 
健 的 癌症 标志 物 , 相 比 单 基因 芯片 得 到 的 标志 物 , 其 将 癌症 类 型 与 正常 组 织 的 区 分 效果 
更 好 。 
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(=) 蛋白 质 组 学 方法 
通常 ,功能 蛋白 的 表达 异常 和 调节 异常 是 疾病 发 生 的 分 子 标志 ,这 些 决定 个 体 生 物性 
状 、 代 谢 特征 和 病理 状况 的 特殊 功能 蛋白 可 以 作为 潜在 的 药物 靶 标 。 尽 管 90% 的 已 知 药 靶 


为 蛋白 质 , 但 由 于 数据 和 技术 上 的 原因 ,蛋白质 水 平 的 药物 靶 标 并 不 如 基因 .转录 水 平 的 研 
究 广泛 。 近 年 来 , 随 着 更 多 蛋白 质 详细 数据 的 获得 ,在 蛋白 质 水 平 上 进行 药物 靶 标 的 开发 和 





1. 基于 蛋白 质 的 理化 特性 ”在 蛋白 质 的 理化 属性 序列 特征 和 结构 特征 上 , 2588 - T 
非 药 靶 分 子 存在 着 显著 的 差异 。Bakheet 等 的 工作 具有 一 定 的 代表 性 。 他 们 系统 分 析 了 148 
个 人 类 药 靶 和 蛋白质 和 3573 个 非 药 靶 蛋 白质 的 特性 ,寻找 两 者 的 区 别 并 预测 新 的 潜在 药物 部 
标 。 人 类 药物 靶 标 蛋白 可 以 归纳 为 8 个 主要 属性 : UKE KERK .包含 信号 肽 结构 域 、 
^R PEST 结构 域 .具有 超过 2 个 N- 糖 基 化 的 氨基 酸 、 不 超过 一 个 0- 糖 基 化 的 丝氨酸 、 低 等 
电 点 和 定位 在 腊 上 。 以 这 些 特征 作为 支持 向 量 机 的 输入 ,可 以 在 药 靶 和 非 药 靶 类 之 间 达 到 
96% 的 分 类 准确 率 , 并 识别 出 668 个 具有 类 似 台 标 属性 的 和 蛋白质。 基于 蛋白质 的 理化 特性 进 
行 药物 靶 标 预测 ,有 利于 发 现 药 物 靶 标的 一 般 特征 ,方法 直接 简单 ,但 该 方法 受 已 知 药 技 的 
影响 较 大 ,在 确认 药 靶 的 有 效 性 时 还 需要 引入 更 多 的 证 据 支 持 。 

2. 基于 蛋白质 相 互 作用 的 网 络 特征 ” 癌 基 因 ( oncogene ) 是 人 类 或 其 他 动物 细胞 (以 及 
致癌 病毒 ) 固 有 的 一 类 基因 ,又 称 转化 基因 ,它们 一 旦 活化 便 能 促使 人 或 动物 的 正常 细胞 发 
生 癌 变 。 通 常 , 癌 基 因 作 为 网 络 的 hub 和 蛋白 参与 多 种 细胞 进程 ,在 信号 通路 中 间 成 为 信息 
交换 的 焦点 。 发 现 新 的 癌症 相关 基因 是 癌症 研究 的 主要 目标 之 一 ,也 是 发 现 潜 在 药 计 的 基 
础 。 人 类 基因 组 规模 的 蛋白 质 相互 作用 数据 的 快速 积累 为 研究 癌 基 因 在 细胞 网 络 中 的 拓扑 
属性 提供 了 条 件 。 在 蛋白 质 相 互 作用 网 络 的 基础 上 , Xu 等 提取 了 节点 的 5 个 网 络 特征 , 包 
括 连 接 度 IN 指数 .2N 指数 .与 致 病 基因 的 平均 距离 以 及 正 拓扑 相关 系数 ( positive topology 
coefficient ), 采 用 KNN 方法 比较 疾病 相关 基因 和 对 照 基因 在 网 络 特征 上 的 区 别 。 研 究 结 果 
证 实 : 疾病 相关 基因 具有 更 高 的 连接 度 , 更 倾向 与 其 他 的 致 病 基因 发 生 相 互 作用 ,而 且 致 病 
基因 之 间 的 平均 距离 明显 低 于 非 致 病 基因 。Ostlund 等 通过 筛选 与 已 知 癌 基 因 高 度 连接 的 
基因 ,得 到 了 一 个 由 1891 个 基因 组 成 的 集合 。 通 过 交叉 验证 分析 功能 注释 偏好 性 和 癌症 
组 织 中 的 表达 差异 进行 方法 验证 ,提供 了 一 个 较为 可 信 的 癌症 相关 的 候选 基因 列表 。 该 基 
因 列表 的 规模 是 已 知 瘤 基 因数 目的 2 倍 以 上 ,对 于 生物 标志 物 和 药 靶 发 现 具有 一 定 的 提示 作 
用 。 进 一 步 , Li 等 通过 整合 多 种 数据 源 识别 癌 基 因 , 包 括 网 络 特征 、 蛋 白质 的 结构 域 组 成 和 
功能 注释 信息 等 。 这 些 研 究 表 明 : 根据 蛋白 质 在 相互 作用 网 络 中 的 特征 ,能 有 效 地 提示 大 量 
的 潜在 药物 靶 标 ,并且 方便 与 其 他 方法 相 结合 。 同 时 ,和 蛋白质 复合 物 的 拓扑 属性 和 模块 性 也 
可 用 于 药 靶 筛选 。 不 同 于 一 般 的 二 元 蛋白 质 相 互 作 用 ,复合 物 更 接近 于 细胞 内 的 真实 状态 。 
在 复合 物 内 部 ,多 肽 之 间 相 互 连 接 成 为 不 同 的 核 , 其 他 蛋白 质 与 核发 生 相 互 作 用 形成 各 种 模 
块 。 蛋 白质 相互 作用 网 络 体现 了 有 蛋白质 组 的 系统 水 平 描述 ,对 于 建 模 复 杂 的 生物 系统 具有 
非常 重要 的 作用 。 有 关 和 蛋白 质 相 互 作用 的 知识 可 以 使 人 们 在 分 子 水 平 上 更 好 地 理解 信号 转 
导 的 生理 学 活动 ,以 及 由 于 通路 的 交 私 部 分 异常 造成 的 多 种 疾病 。 

3. 比较 蛋白 质 组 方法 ”蛋白质 组 学 是 研究 特定 时 空 条 件 下 细胞 组织 等 所 含 蛋白 质 表 
达 谱 的 有 效 手 段 ,也 是 寻找 癌症 分 子 标记 和 药物 靶 标 的 重要 方法 。 相 关 的 蛋白 质 组 学 技术 
包括 免疫 亲 和 纯 化 ( affinity purification )\ 蛋 白质 活性 表达 谱 ( activity-based profiling ) 和 和 蛋白 
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质 芯 片 ( microarray ) 等 ,识别 与 某 一 特定 疾病 或 者 病理 条 件 相关 的 蛋白 质 。 基 于 蛋白 质 组 学 
研究 药 靶 通常 采用 比较 蛋白 质 组 分 析 方 法 ,例如 ,稳定 放射 性 核 素 差异 标记 、ICAT( isotope- 
coded affinity tag ) 或 iTRAQ 技术 ,能够 较为 精确 地 定量 蛋白 质 丰 度 的 变化 。 通 过 比较 癌症 
人 群 与 正常 人 群 在 对 应 病理 组 织 / 器 官 内 蛋白质 的 差别 ,挖掘 潜在 的 药物 靶 标 。 例 如 , Hu 等 
采用 二 维 液 相 色谱 串联 质谱 法 (2D-LC-MS/MS ) 比较 肺癌 患者 与 正常 人 的 血清 蛋白 差异 ， 
经 过 和 蛋白质 鉴 定 和 定量 分 析 , 发 现 了 2078 个 和 蛋白质 可 能 存在 差异 ,进而 挑选 出 Tenascin-XB 
CTNXB ) 作为 候选 的 生物 标志 物 用 于 预测 肺癌 的 早期 转移 。 此 外 ,如 果 不 能 直接 找到 对 应 
的 活性 小 分 子 ,也 可 以 通过 比较 疾病 样本 和 正常 样本 中 蛋白 质 的 表达 差异 ,鉴别 发 生 异常 的 
生物 学 通路 。 采 用 总 体 的 蛋白 质谱 方法 (如 MudPIT ) 获取 充足 的 信息 ,发现 与 特定 表 型 相关 
的 蛋白 质 和 通路 。 定 位 到 相应 的 生物 学 通路 之 后 ,再 从 中 确定 药物 靶 标 。 随 着 人 类 蛋白质 
组 计划 的 推进 ,蛋白 质 组 技术 的 发 展 为 系统 地 ,规模 化 地 寻找 蛋白 质 药 靶 和 和 蛋白 质 药 物 提 供 
了 有 力 的 武器 。 但 由 于 现 有 数据 的 规模 和 质量 问题 ,以 及 分 析 方 法 的 限制 ,采用 蛋白质 组 学 
方法 发 现 的 药物 靶 标 还 没有 人 们 预想 的 多 ,还 有 着 广阔 的 发 展 空间 。 


(四 ) 代谢 组 方法 


代谢 组 学 是 生物 体内 小 分 子 代 谢 物 的 总 和 ,所 有 对 生物 体 的 影响 均 可 反映 在 代谢 组 水 
平 。 代 谢 组 放大 了 蛋白质 组 的 变化 ,更 接近 于 组 织 的 表 型 。 代 谢 途 径 的 异常 变化 反映 了 生 
命 活 动 的 异常 ,因此 定量 描述 生物 体内 代谢 物 动态 的 多 参数 变化 可 揭示 疾病 的 发 病 机 制 。 
通常 ,代谢 组 学 的 实验 技术 包括 磁 共 振 、 质 谱 、 色 谱 等 ,其 中 磁 共 振 技 术 是 最 主要 的 分 析 工 
具 , 其 次 是 液 相 色 谱 - 质谱 联 用 (LC/MS ) 和 气相 色谱 - 质谱 联 用 ( GC/MS )。 通 过 GC/MS dz 
术 解 析出 代谢 物 的 质谱 图 ,将 其 与 现 有 数据 库 进 行 比较 ,可 以 鉴定 该 代谢 化 合 物 。 由 于 缺 
少 标准 的 代谢 物 数据 库 ,该 方法 的 鉴定 结果 有 限 。 采 用 生物 信息 学 方法 对 代谢 组 数据 进行 
分 析 和 处 理 , 比 较 正 常 组 和 模型 组 的 区 别 ,可 以 帮助 药 靶 发 现 以 及 药 效 评估 。 如 Pohjanen 等 
提出 了 一 种 名 为 统计 多 变量 代谢 谱 ( staistical multivariate metaboliteprofiling ) 的 策略 ,在 代谢 
GC/MS 数据 的 基础 上 辅助 药 靶 模式 发 现 和 机 制 解释 。 同 时 ,代谢 组 学 对 于 生物 标志 物 发 现 、 
药物 作用 模式 和 药物 毒性 研究 有 具有 重要 作用 。 在 酶 网 络 的 基础 上 , Sridhar 等 发 展 了 一 种 分 
支 定 界 ( branch-and-bound ) 方 法 ,命名 为 OPMET, 寻 找 优化 的 酶 组 合 ( 即 药物 靶 标 ), 用 于 抑 
制 给 定 的 目标 化 合 物 并 减少 副作用 。 类 似 的 ,通过 提取 代谢 系统 的 特征 , Li 等 采用 整数 线性 
规划 模型 在 整个 代谢 网 络 范 围 内 寻找 能 够 阻止 目标 化 合 物 合成 的 酶 集合 ,并 尽 可 能 地 消除 
对 非 目 标 化 合 物 的 影响 。 


(五 ) 整合 多 组 学 数据 的 系统 生物 学 方法 


系统 生物 学 将 基因 组 、 蛋 白质 组 和 代谢 组 等 不 同 组 学 的 数据 进行 整合 ,研究 在 基因 、 
mRNA 和 蛋白质. 生物 小 分 子 水 平 上 系统 的 生物 学 功能 和 作用 机 制 。 对 于 疾病 的 发 生 和 发 展 
提供 了 更 好 的 理解 ,同时 有 助 于 识别 药物 的 作用 和 毒性 ` 模 拟 药物 作用 的 过 程 、 发 现 特异 的 
药物 作用 靶 标 。 

1. 文本 挖掘 方法 ”由 于 人 类 疾病 背后 的 生物 机 制 相当 复杂 ,在 药 靶 发 现 中 最 重要 的 任 
务 不 仅 是 要 挑选 和 优化 可 靠 的 作用 靶 点 ,而 且 要 理解 在 疾病 表 型 下 隐 含 的 分 子 相互 作用 ， 
提供 可 预测 的 模型 并 建立 人 类 疾病 的 生物 网 络 。 因 此 ,需要 广泛 地 收集 和 过 滤 现 有 的 各 个 
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层面 的 异 质数 据 和 信息 。 目 前 ,最 流行 的 生物 医学 文献 数据 库 MEDLINE/PubMed 收录 了 从 
1970 年 开始 的 超过 1800 万 篇 文献 的 摘要 ,并 且 每 月 还 会 新 增 超过 6 万 篇 的 摘要 。 据 估计 ， 
存储 化 学 .基因 组 .蛋白质 组 和 代谢 组 数据 的 数据 库 规模 每 两 年 就 会 翻 一 倍 。 如 此 丰富 的 生 
物 数 据 和 信息 为 药 靶 发 现 提供 了 巨大 的 新 机 遇 。 

尽管 分 子 生 物 学 和 医学 研究 中 数据 库 的 重要 性 日 益 增 长 , 绝 大 部 分 的 科学 论文 并 非 存 
在 于 结构 化 的 数据 库 条 目 中 。 这 些 知 识 必然 无 法 为 计算 机 程序 所 理解 ,甚至 对 于 人 来 说 都 
是 难以 发 现 的 。 文 本 挖掘 方法 是 机 器 学 习 和 自然 语言 处 理 方面 的 计算 方法 ,能 够 有 效 地 用 
于 数据 挖掘 和 知识 理解 ,从 海量 的 医学 文献 中 挖掘 与 药 靶 发 现 相 关 的 有 用 知识 。 

其 主要 内 容 包括 : 识别 生物 学 实体 ,包括 基因 基因 产 物 .通路 和 疾病 ; 提取 蛋白质 相互 
作用 关系 ,并 以 网 络 图 形 化 表示 ; 抽 提 出 特定 细胞 类 型 中 相关 的 生物 学 通路 ,以 及 计算 机 仿 
真 所 需 的 动力 学 参数 ,建立 存储 这 些 抽 提 信息 的 数据 库 。 目 前 ,生物 知识 的 文本 挖掘 方法 主 
要 采用 实体 的 共 出 现 分 析 和 自然 语言 处 理 ,已 成 功 地 用 于 疾病 相关 的 网 络 重建 以 及 生物 数 
据 分 析 , 常 用 软件 包括 Protein Corral 和 EBIMed。 进 一 步 ,更 复杂 的 文本 挖掘 方法 可 以 从 文献 
中 抽 提 详细 的 相互 作用 注释 信息 ,如 Wang 等 发 展 了 一 种 CMW( correlated method-word ) 模型 
从 文本 中 提取 和 蛋白质 相 互 作用 的 检测 信息 。 

2. 通路 建 模 与 仿真 ”药物 作用 是 一 个 复杂 的 动态 过 程 ,如 果 不 能 找到 合适 的 方法 就 很 
难 确认 药物 的 有 效 性 。 例 如 ,在 药物 开发 过 程 中 常用 的 手段 之 一 是 基因 敲 除 实验 ,其 作用 方 
式 与 在 特定 酶 上 的 欧 争 抑制 过 程 完全 不 同 。 在 基因 项 除 过 程 中 ,给 定 的 通路 可 能 被 完全 关 
闭 ,也 可 能 由 于 系统 的 自身 补偿 作用 而 只 有 部 分 的 影响 。 在 此 基础 上 设计 的 靶 向 药物 可 能 
存在 效率 较 低 的 问题 。 因 此 ,为 了 使 药物 开发 过 程 更 贴近 于 真实 情况 ,有 必要 将 定量 的 建 模 
方法 引入 到 药物 研究 领域 ,精确 地 模拟 药物 与 靶 标 相互 作用 进而 发 挥 药 效 的 过 程 ,发 现 更 加 
有 效 的 药物 作用 靶 点 。 随 着 实验 技术 的 发 展 、 数 据 的 累积 和 文本 挖掘 的 开展 ,生物 通路 的 建 
模 方 法 得 到 了 快速 的 发 展 和 应 用 。 其 中 ,最 常用 的 建 模 方法 是 确定 性 生化 反应 描述 ,已 成 
功 地 用 于 药物 代谢 动力 学 和 药剂 反应 建 模 。 确 定性 反应 的 缺点 在 于 缺乏 可 伸缩 性 。 通 常 ， 
基因 组 和 蛋白质 组 方法 要 处 理 数 十 甚至 数 百 个 分 子 之 间 的 信号 网 络 , 反 应 参数 的 范围 可 能 
包含 多 个 跨度 ,超出 了 确定 性 方法 的 处 理 能 力 。 最 新 出 现 的 方法 ,如 结合 反应 ( combinatorial 
reaction generation ) 和 线性 规划 ( linear programming ) 可 以 满足 这 种 需求 ,批量 地 处 理 大 规模 
的 复杂 化 学 反应 网 络 。 进 一 步 , 随 机 方法 能 够 从 根本 上 克服 确定 性 方法 的 限制 。 它 们 是 高 
度 可 伸缩 性 的 ,同时 易于 进行 模拟 。 然 而 , 面 对 复杂 的 非 线 性 动态 问题 ,随机 方法 也 存在 很 
大 的 难度 ,还 有 待 进一步 探索 。 近 年 来 ,用 于 描述 反应 动力 学 网 络 的 数学 模型 被 证 明 可 以 有 
效 地 预测 生物 体 对 于 环境 刺激 和 外 界 扰动 的 响应 ,识别 可 能 的 药物 靶 标 。 一 种 系统 的 药物 
设计 方法 是 : 在 网 络 中 模拟 单个 反应 的 抑制 过 程 ,量化 在 指定 观察 量 上 的 作用 效果 。 在 代谢 
网 络 中 ,观察 量 一 般 是 稳 态 值 ,在 信和 号 级 联 模型 中 ,观察 量 包 括 浓度 ,特征 时 间 、 信 和 号 持续 时 
间 和 信号 幅 值 等 。Schulz 等 在 系统 生物 学 标记 语言 Systems biology markup language ( SBML ) 
的 基础 上 开发 了 一 款 名 为 Tlde 的 工具 ,采用 普通 微分 方程 对 系统 进行 模拟 ,研究 在 网 络 中 
不 同位 置 进 行 激 活 和 抑制 处 理 时 系统 的 响应 。 通 过 模拟 不 同 的 抑制 目标 .类 型 和 抑制 剂 浓 
RE ,确定 一 个 或 多 个 优化 的 药物 靶 标 ,在 尽 可 能 少 的 抑制 剂 数目 下 以 较 低 的 浓度 使 指定 的 观 
察 量 达 到 期 望 值 。 此 类 药物 作用 模型 的 建立 和 模拟 有 助 于 理解 药物 的 作用 机 制 ,预测 药 效 
发 挥 过 程 中 可 能 存在 的 问题 ,进而 为 实验 设计 提供 辅助 作用 。 





3. 多 组 学 数据 的 综合 应 用 ”系统 生物 学 的 优势 在 于 “整合 ”, 即 综合 利用 基因 组 学 、 转 
录 组 学 蛋白质 组 学 和 代谢 组 学 研究 药物 对 系统 的 影响 ,提示 可 能 的 作用 靶 点 。 例 如 ,Chu 
等 根据 大 规模 实验 及 相关 数据 库 建立 了 整合 的 蛋白 质 相互 作用 数据 集 ,采用 非 线 性 随机 模 
型 .最 大 似 然 参 数 估计 和 Akaike 信 息 准 则 ( Akaike information criteria, AIC ) 方 法 ,通过 基因 
芯片 数据 估计 疾病 状态 和 正常 状态 下 的 蛋白 质 相 互 作用 网 络 差异 ,识别 受到 扰动 的 枢纽 
(Hub ) 和 蛋白 节点 ,发 现 候选 的 药物 靶 标 。 除 将 转录 组 和 和 蛋白质 组 数据 结合 之 外 ,基因 组 与 转 
录 组 .基因 组 与 蛋白 质 组 甚至 更 多 组 学 数据 的 整合 研究 也 在 进行 中 。 整 合 研 究 的 关键 是 以 
生物 网 络 为 中 心 加 深 对 整个 系统 的 理解 。 疾 病 是 一 个 非常 复杂 的 生理 和 病理 过 程 ,涉及 多 
基因 多 通路 .多 途径 的 分 子 相 互 作用 的 过 程 ,这 种 网 络 化 的 特点 对 于 药 靶 筛选 至 关 重 要 。 
系统 生物 学 为 药物 开发 过 程 提 供 了 全 新 的 视野 ,将 蛋白 质 靶 标 置 于 其 内 在 的 生理 环境 中 ,在 
提供 网 络 化 的 整体 性 视角 的 同时 不 会 丧失 关键 的 分 子 作用 细节 。 鉴 于 生物 网 络 具 有 一 定 的 
宛 余 性 和 多 样 性 ,包括 一 定 的 反馈 回路 和 故障 安全 (fail-safe ) 机 制 。 因 此 ,筛选 潜在 药 靶 时 
要 考虑 到 其 在 网 络 中 的 位 置 ,优先 挑选 那些 处 于 枢纽 位 置 发 挥 重 要 作用 的 贡 点 ,并 且 避 免 反 
馈 回路 对 药 效 进行 补偿 。 同 时 ,疾病 相关 网 络 的 内 部 高 连接 度 表 明 ,基于 网 络 的 诊疗 方法 应 
以 整个 通路 作为 靶 标 ,而 不 是 单个 蛋白 质 。 其 最 终 的 目标 不 仅 是 识别 一 组 能 够 共同 发 挥 作 
用 的 药物 ,而且 发 现 一 组 靶 标 或 模块 的 组 合 ,它们 在 不 同 的 治疗 位 置 发 挥 作用 并 最 后 集中 到 
一 个 特定 的 通路 位 点 。 尽 管 看 起 来 这 是 一 个 几乎 不 可 能 实现 的 任务 ,但 是 在 乳腺 癌 转 移 上 
的 实验 已 经 证 明了 基于 通路 知识 进行 多 靶 点 联合 治疗 的 有 效 性 。 


二 、 潜 在 药 靶 的 生物 信息 学 验证 》》 


在 大 量 的 潜在 药 靶 被 揭示 之 后 ,在 此 基础 上 可 以 寻找 针对 性 的 抑制 小 分 子 ,进行 后 续 的 
动物 实验 临床 测试 等 一 系列 药物 开发 过 程 。 由 于 药物 开发 的 难度 较 大 、 周 期 很 长 ,在 前 期 
对 候选 药 靶 进 行 充 分 的 筛选 和 验证 显得 非常 必要 。 生 物 信息 学 方法 在 对 候选 药 靶 进行 功能 
分 析 ,预测 其 可 药性 并 降低 药物 副作用 方面 也 有 重要 的 应 用 。 


(一 ) 蛋白 质 的 可 药性 


随 着 超过 上 百 个 真 核 和 原核 生物 的 基因 组 被 完整 测序 ,人 们 有 机 会 对 基因 进行 大 规模 
的 分 析 和 筛选 , 据 估 计 整 个 人 类 基因 组 中 约 有 10% 与 疾病 相关 ,从 而 导致 约 3000 个 潜在 的 
药物 靶 标 。 同 时 ,还 有 成 千 上 万 个 来 自 于 微生物 和 寄生 生物 的 蛋白 质 , 可 以 作为 传染 病 治 疗 
的 药 靶 。 目 前 ,在 所 有 的 人 类 基因 产物 中 仅 有 2% ( 260-400 ) 成 功 地 发 展 为 小 分 子 药物 的 靶 
标 。 从 大 量 的 潜在 组 标 中 挖掘 能 够 被 疾病 修饰 的 可 药 部 分 是 药物 鹏 标 验证 的 重要 环节 。 根 
据 基因 组 信息 和 和 蛋白质 结构 特征 ,人 们 开发 了 一 系列 生物 信息 学 方法 预测 潜在 够 标的 可 药 
性 。 评 估 蛋 白质 可 药性 的 第 一 步 是 识别 在 蛋白 质 表 面 的 所 有 可 能 的 结合 位 点 ,进而 寻找 真 
实 的 配 体 可 结合 位 点 。 其 计算 方法 主要 分 为 两 类 : 基于 几何 的 方法 和 基于 能 量 的 方法 。 几 
何 基 础 上 的 方法 利用 了 这 样 一 个 事实 : 天 然 的 配 体 结合 位 点 在 蛋白 质 表 面 倾 向 于 内 部 凹陷 ， 
{ii ull SURFNET, LIGSITE , SPROPOS, CAST, PASS 和 Flood-fill 方法 。 而 能 量 基 础 上 的 方法 
将 多 种 物理 指标 综合 到 pocket 识别 过 程 ,试图 计算 其 结合 能 ,如 GRID、vdW-FFT、DrugSite 
和 Computaional solvent mapping。 在 排序 过 程 中 ,这 些 方法 都 能 够 给 予 真 实 的 配 体 结合 位 点 
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以 较 高 的 打分 ,证 实 了 其 有 效 性 。 第 二 步 是 评估 结合 位 点 能 否 高 亲 和 性 ,特异 地 与 小 分 子 药 
物 结合 。 定 量 评估 给 定位 点 可 药性 的 计算 工具 较 少 ,最 直接 的 评估 蛋白 质 可 药性 的 方法 是 
根据 生物 化 学 谱 实际 测量 小 分 子 击 中 目标 的 数目 和 类 型 ,如 MR 谱 图 。 

此 外 ,由 于 大 部 分 的 蛋白 质 是 通过 与 其 他 蛋白 质 相互 作用 发 挥 生物 学 功能 ,蛋白 质 相 
互 作用 在 组 织 的 各 种 细胞 过 程 中 发 挥 了 基础 和 关键 作用 ,被 认为 是 一 种 富 于 挑战 的 同时 又 
充满 吸引 力 的 小 分 子 药物 作用 的 新 型 靶 标 。 类 似 于 单个 蛋白 质 的 可 药性 ,人 们 提出 了 多 种 
方法 预测 蛋白 质 相互 作用 的 可 药性 。2007 年 , Sugaya 等 从 3 个 方面 评估 蛋白 质 相 互 作 用 的 
可 药性 : 蛋白 质 相互 作用 中 包含 的 结构 域 对 、 蛋 白质 与 小 分 子 药物 的 结合 位 点 .GO 功能 注 
释 的 相似 性 打分 。 最 近 , Sugaya 等 使 用 结构 药物 和 化 学 以 及 功能 相关 的 69 个 特征 作为 支 
持 向 量 机 的 输入 ,判断 1295 对 已 知 结构 的 蛋白 质 相 互 作 用 的 可 药性 ,在 标准 的 相互 作用 数 
据 集中 得 到 了 81% 的 预测 准确 率 ,其 中 区 分 度 最 大 的 特征 是 相互 作用 蛋白 质 的 数目 和 通路 
数目 。 


(二 ) 药物 的 副作用 


多 组 学 数据 的 大 量 累积 为 药物 研究 提供 了 发 展 机 遇 , 人 们 开发 了 多 种 方法 用 于 发 现 潜 
在 的 药物 靶 标 ,但 是 最 终 找 到 合适 的 药物 作用 靶 标 并 成 功 地 进行 临床 应 用 并 非 易 事 。 一 般 
选择 药物 作用 靶 标 要 考虑 两 个 方面 的 情况 : 首先 是 靶 标的 有 效 性 , 即 技 标 与 疾病 确实 相关 ， 
通过 调节 和 靶 标 的 生理 活性 能 够 有 效 地 改善 疾病 症状 。 其 次 是 靶 标的 副作用 ,如 果 对 靶 标的 
生理 活性 的 调节 不 可 避免 地 产生 严重 的 副作用 ,那么 将 其 选 作 药物 作用 靶 标 也 是 不 合适 的 。 

药 靶 和 药物 代谢 酶 多 态 性 是 造成 药物 疗效 差异 和 毒 副作用 的 主要 原因 之 一 。 药 物 反应 
个 体 差 异 与 个 体 的 基因 多 态 性 特别 是 单 核 昔 酸 多 态 性 ( singlenucleotide polymorphism, SNP ) 
密切 相关 。SNP 主要 是 指 在 基因 组 水 平 上 由 单个 核 苷 酸 的 变异 所 引起 的 DNA 序 列 多 态 性 。 
SNP 在 人 类 基因 组 中 广泛 存在 ,平均 每 500~1000 个 碱 基 对 中 就 有 1 个 ,估计 其 总 数 可 达 300 
万 个 甚至 更 多 。 事 先 确 定 药物 靶 标 的 基因 多 态 性 ,就 可 以 估计 药物 适用 的 人 群 ,进行 个 性 
化 的 医疗 ,增加 疗效 并 降低 毒 副作用 。 目 前 , 随 着 快速 ,规模 化 技术 的 发 展 ,大量 的 SNP 已 
经 被 揭示 ,为 相关 研究 提供 了 基础 。 而 生物 信息 学 方法 可 以 帮助 阐释 SNP 与 疾病 治疗 之 间 
的 关系 ,发 现 疾病 易 感 基 因 和 潜在 药物 靶 标 ,评估 药物 疗效 和 毒 副作用 。 以 乳腺 癌 为 模型 ， 
Wiechec 等 报道 SNP 基 因 型 会 影响 DNA 修复 基因 的 转录 活性 和 药物 代谢 过 程 ,从 而 影响 到 临 
床 的 治疗 毒性 和 效果 。 

在 生物 网 络 基础 上 综合 评估 药物 作用 的 多 种 影响 ,也 有 助 于 寻找 增加 药物 疗效 .降低 副 
作用 的 有 效 方法 。 在 蛋白 质 -药物 相互 作用 网 络 的 基础 上 , Xie 等 介绍 了 一 种 新 的 计算 策略 
识别 基因 组 规模 的 蛋白 质 - 受 体 结合 谱 , 用 于 阐释 CETP 抑 制剂 的 药物 作用 机 制 。 通 过 将 药 
物 靶 标 与 生物 学 通路 相关 联 ,揭示 了 CETP 抑 制剂 的 副作用 受 多 个 交 联 通路 的 联合 控制 ,给 
出 了 降低 此 类 药物 副作用 的 可 能 方法 。 

随 着 大 规模 组 学 数据 的 积累 , 仅 赁 实验 方法 已 经 不 能 满足 数据 分 析 和 药 靶 发 现 的 需求 ， 
有 必要 发 展 有 效 的 生物 信息 学 方法 存储 分析、 处理 和 整合 多 组 学 数据 ,提高 药 靶 发 现 和 验 
证 的 效率 。 目 前 ,生物 信息 学 方法 已 成 功 地 运用 于 药 靶 发 现 的 各 个 环节 ,对 于 存储 疾病 相关 
的 医学 数据 发 现 大 量 潜在 的 药物 靶 标 .揭示 药物 作用 机 制 . 评 估 作 用 加 点 的 可 药性 等 方面 
作出 了 重要 贡献 ,有 利于 设计 更 加 有 针对 性 的 生物 学 实验 ,促进 现代 新 药 开 发 进程 。 相 比 其 
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他 方法 ,采用 生物 信息 学 预测 潜在 药物 靶 标 的 优势 在 于 : 中 不 局 限于 特定 的 技术 或 某 种 类 型 
的 信息 ,尤其 适合 将 不 同 的 数据 整合 到 一 个 大 的 体系 中 评估 潜在 药 肢 的 表现 ; @ 以 网 络 为 基 
础 的 药 革 发现 平 台 有 利于 从 整体 角度 进行 药 靶 第 选 并 发 现 联合 靶 标 ; (3) 随 着 动态 的 详细 的 
生物 学 时 空 数据 的 累积 ,有 可 能 在 计算 机 中 精确 地 模拟 药物 针对 靶 标 作用 的 过 程 以 及 对 整 
个 系统 产生 的 影响 ,从 而 大 大 提高 药物 开发 的 效率 。 

生物 信息 学 方法 在 药物 技 标 发 现 的 应 用 还 刚刚 起 步 , 有 赖 于 生物 学 理论 、 实 验 技术 \ 统 
计 分 析 和 建 模 方法 等 多 方面 的 进一步 发 展 ,从 而 在 后 基因 组 时 代 的 疾病 诊断 、 预 后 和 个 性 化 
医疗 中 发 挥 更 加 重要 的 作用 。 
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LT 
药物 基因 组 学 


Section 3 Pharmacogenomics 
一 .概述 >> 


所 谓 药 物 基因 组 学 ,就 是 在 人 类 全 基因 组 范围 研究 药物 反应 差异 的 遗传 学 本 质 。 人 类 
基因 组 具有 广泛 的 多 态 性 ,药物 基因 组 学 研究 个 体 的 遗传 背景 ,预测 药物 反应 特点 ,实施 “个 
IE" 合理 用 药 , 并 可 以 根据 不 同人 群 及 不 同 个 体 的 遗传 特点 设计 、 开 发 和 研制 新 药 。 

药物 基因 组 学 以 基因 多 态 性 为 基础 ,而 基因 多 态 性 是 指 群体 中 正常 个 体 的 基因 在 相同 
位 置 上 存在 差别 (如 单 碱 基 差别 .或 单 基 因 .多 基因 以 及 重复 序列 数目 的 差别 等 ), 并 且 这 种 
差别 出 现 的 频率 大 于 1%。 药 物 基因 组 学 研究 药物 效应 的 个 体 间 差异 ,针对 不 同 个 体 基因 型 
进行 个 性 化 治疗 。 其 研究 内 容 包 括 药物 效应 的 基因 型 预测 和 基因 组 学 在 医药 上 的 应 用 ,在 
分 子 水 平 上 证 明和 阐述 药物 疗效 药物 作用 的 靶 位 ,作用 模式 和 毒 副作用 。 

药物 基因 组 学 不 是 以 发 现 新 的 基因 和 探索 疾病 的 发 生机 制 为 主要 目标 ,而 是 以 探讨 药 
物 作用 的 遗传 分 布 ,确定 药物 作用 靶 点 来 满足 临床 上 最 佳 的 药物 效应 及 安全 性 为 目标 。 药 
物 基因 组 学 除了 人 研究 遗传 多 样 性 引起 的 药物 或 有 毒物 质 反 应 的 差异 外 ,还 人 研究 基因 多 样 性 
与 药 效 的 关系 ,以 及 个 体 差异 与 同 种 药物 不 同 作用 靶 点 的 关系 等 。 


二 、 药 物 基因 组 学 的 生物 标记 》》 
(一 ) RE ERR 


人 群 中 大 多 数 可 观察 到 的 序列 突变 是 由 单 核 背 酸 多 态 导 致 的 。 单 核 背 酸 多 态 ( single 
nucleotide polymorphisms, SNP ) 是 碱 基 对 的 变异 ,大约 每 1000bp 的 DNA 序 列 中 会 有 一 个 SNP。 
一 个 特定 基因 的 SNP 位 置 将 会 决定 对 这 个 基因 功能 可 能 造成 的 影响 。 

1. 基因 编码 区 的 SNP 大约 有 1% 的 SNP 影 响 DNA 序 列 中 蛋白 质 编码 部 分 ,这 些 SNP 通 党 
apanage EAS FFE BT BE ST SCR AEE RC n AESF P CR ERE ALES 

影响 ,影响 的 范围 可 以 从 没有 明显 影响 ,增强 活性 ,到 蛋白 质 功能 的 完全 失 活 。 在 证 
he 影响 往往 是 不 明显 的 ,至 少 在 基于 表达 的 重组 入 白质 功能 分 析 上 ,常常 通 
过 增强 或 者 阻碍 蛋白 质 的 降解 过 程 来 间接 影 PREISE 

SNP 除 了 将 一 个 氨基 酸 替换 成 男 一 个 氨基 酸 之 外 ,还 能 产生 其 他 影响 。 比 如 ,可 能 导致 
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一 个 DNA 遗 传 密码 子 过 早 地 终止 恒 白质 翻译 ,这 个 被 称 之 为 一 个 过 早 的 终止 密码 子 或 无 意 
义 密码 子 。 这 种 密码 子 会 导致 一 个 截断 的 蛋白 质 迅速 降解 或 功能 失 活 。 有 趣 的 是 ,最 近 的 
证 据 表 明 , 这 样 的 截断 蛋白 质 可 能 会 一 直 形 成 ,不 会 结束 ,这 是 因为 有 一 个 系统 监控 mRNA 
中 无 意义 密码 子 的 存在 ,导致 mRNA 在 降解 之 前 翻译 。CYP2C19*3 等 位 基因 就 是 一 个 典型 的 
过 早 终止 密码 子 的 例子 。CYP2C19 基 因 编 码 的 细胞 色素 P450 CYP2C19 和 蛋白 ,是 一 种 肝 药 酶 ， 
主要 负责 代谢 多 种 药物 ,包括 巴 比 妥 类 、 乙 内 酰 逐 和 多 种 质子 泵 抑制 剂 (如 奥 美 拉 唑 )。 一 部 
分 个 体 体内 的 这 种 酶 含量 不 足 ( 代 谢 不 良 ), 将 影响 给 药 和 疗效 。 比 如 说 ,用 奥 美 拉 只 和 阿 莫 
西林 治疗 与 幽门 螺杆 菌 感染 相关 的 胃 溃 疡 和 十 二 指 肠 溃 疡 的 患者 ,不 良 代 谢 者 比 快速 代谢 
者 的 治疗 效果 更 好 。 然 而 ,代谢 不 良 的 发 生 因 人 和 群 而 异 , 相 较 于 欧洲 和 白 种 人 后 裔 ( 296-596 ), 
东亚 人 发 生 的 频率 更 高 ( 18% 到 23% ,包括 日 本 ,中 国 和 韩国 )。 这 些 人 群 的 差异 部 分 源 于 
CYP2CI9* 3 等 位 基因 ,其 中 发 生 在 东亚 人 群 中 的 约 6% 至 10% ,但 对 于 欧洲 白人 后 裔 基本 上 
不 发 生 。 与 CYP2C19*3 等 位 基因 相关 的 SNP 导 致 色 氨 酸 密码 子 TGG 被 蔡 换 成 终止 密码 子 
TCA ,这 就 导致 了 酶 被 截断 ,从 而 不 稳定 以 及 失 活 。 

在 大 多 数 情况 下 ,在 蛋白 质 编 码 区 的 SNP 对 氨基 酸 编 码 没有 影响 。 这 些 类 型 的 SNP 被 称 
为 同 义 (或 沉默 )SNP, 它 们 是 退化 氨基 酸 编 码 系统 的 结果 ,这 个 系统 被 蛋白 质 翻译 机 器 所 使 
用 ,使 得 DNA 核 苷 酸 三 联 体 可 以 有 几 种 不 同 的 组 合 编码 同一 种 氨基 酸 。 虽 然 同 义 SNP 通 常 
被 认为 对 蛋白 质 功能 没有 影响 ,但 是 最 近 一 项 研究 却 给 出 了 相反 的 结果 。 人 类 MDR1 基 因 ( 编 
码 P- 糖 蛋白 ) 中 发 现 了 在 外 显 子 26 中 有 一 个 常见 的 同 义 SNP, 这 个 SNP 先 前 与 活体 内 P- 糖 蛋 
和 白 活 性 的 降低 有 关 , 当 各 种 哺乳 动物 细胞 系 中 的 重组 蛋白 质 被 表达 时 , 它 就 改变 P- 糖 蛋白 的 
构成 和 底 物 的 特异 性 。 这 个 结果 是 由 于 在 参照 序列 中 比较 常用 的 甘氨酸 密码 子 CGGC 被 突变 
序列 中 相对 较 少 的 甘氨酸 密码 子 GGT 所 替换 ,这 样 的 翻译 效率 可 能 比较 低 , 导 致 翻译 的 蛋白 
折 笃 区 时 间 的 改变 ,以 及 对 和 蛋白 质 的 功能 有 不 利 的 影响 。 

SNP 的 位 置 位 于 一 个 基因 的 编码 区 域 之 外 也 会 造成 一 定 的 影响 ,包括 对 基因 转录 、 
mRNA 的 剪 切 .mRNA 的 降解 的 影响 ,以 及 和 蛋白质 翻译 效率 的 影响 。 

2. 启动 子 和 5” -调控 SNP ”位 于 一 个 基因 启动 子 和 5“ 一 调控 区 域 的 SNP 可 以 影响 (增加 
或 减少 ) 基 因 的 转录 ,这 是 通过 DNA 序 列 中 的 变化 实现 的 ,结合 转录 因子 很 有 必要 ,这 些 转 录 
因子 对 底 物 的 活性 .基因 表达 的 增强 与 抑制 都 很 重要 。 作 为 后 者 的 一 个 例子 ,位 于 一 个 假定 
Y -干扰 素 激活 序列 元 件 的 SNP 用 来 消除 y -干扰 素 对 CYP2E1 转 录 的 正常 抑制 影响 ，Y - 干 
扰 素 激活 序列 位 于 CYP2E1 基 因 的 5 -调控 区 域 。CYP2E1 是 一 种 药物 代谢 酶 , 它 催化 各 种 
低 分 子 量 药物 的 氧化 ,最 显著 的 是 乙酰 氨基 酚 ( 高 浓度 ), 导 致 肝 毒 性 代谢 产物 N -乙酰 -P- 
茶 醒 亚 胺 的 形成 。 

3. 内 含 子 和 剪 切 SNP ”转录 开始 之 后 ,主要 的 mRNA 转 录 通 常 包含 编码 区 (外 显 子 ) 和 非 
编码 区 (内 含 子 ) 的 mRNA。 内 含 子 中 的 mRNA 通 常 通过 酶 切 被 移 到 一 个 更 短 的 成 熟 mRNA 
中 来 作为 蛋白 质 翻 译 的 模板 。 一 些 保守 序列 元 件 已 经 被 证 明 对 于 mRNA 在 特定 位 点 的 剪 切 
是 必 不 可 少 的 ,包括 在 外 显 子 和 内 含 子 边界 处 供 体 和 受 体 位 点 的 剪 切 , 以 及 分 支 位 点 的 剪 
切 。 也 有 一 些 位 于 外 显 子 和 内 含 子 区 域 中 保守 度 较 低 的 序列 元 件 , 处 在 剪 切 位 点 的 周围 ,这 
些 剪 切 位 点 也 为 调控 蛋白 提供 结合 位 点 ,调控 蛋白 既 可 以 促进 ( 剪 切 增强 子 ) 或 者 抑制 ( 剪 切 


产物 可 以 从 相同 的 主要 mRNA 转录 的 调控 方式 中 产生 。 
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位 于 上 述 mRNA 序 列 元 件 的 任何 一 个 中 的 SNP 都 有 可 能 改变 mRNA 的 前 切 ,导致 mRNA 
缺少 一 个 或 更 多 外 显 子 ,或 者 部 分 地 或 完全 地 保留 内 含 子 序列 。 另 外 , SNP 可 能 创造 新 的 
剪 切 供 体 、 受 体 .或 调控 位 点 ,这 些 调控 位 点 同 其 他 剪 切 位 点 竞争 ,然后 再 形成 新 的 mRNA 突 
变 。 虽 然 产 生 的 剪 切 形 式 可 能 编码 一 个 功能 蛋白 突变 ,但 是 更 可 能 的 情况 是 ,这 样 的 变化 导 
致 过 早 终止 密码 子 和 一 个 没有 活性 的 蛋白 质 的 出 现 。 

与 CYP345 基 因 有 关 的 SNP 说 明了 上 述 几 个 可 能 性 。CYP3A5 是 临床 上 重要 的 酶 CYP3A 
亚 科 ( 其 中 还 包括 CYP3A4, CYP3A7 和 CYP3A43 ) 的 其 中 一 种 , 它 负 责 人 体 中 大 部 分 药物 的 
氧化 。CYP345 在 人 体 中 有 多 种 表达 状态 ,只 有 33% 的 欧美 人 和 60% 的 美国 黑人 的 肝脏 里 有 
这 种 酶 的 表达 。 与 低 CYP345 表 达 关 联 的 最 常见 的 突变 等 位 基因 是 CYP345 * 3. CYP3A5 * 
3 包含 了 一 个 SNP, 这 个 SNP 在 CYP345 基 因 的 3 号 内 含 子 中 创造 了 一 个 新 的 前 切 位 点 ,导致 异 
常 的 mRNA 转 录 发 生 在 了 3 号 内 含 子 (外 显 子 3B ) 的 部 分 区 域 。3B 外 显 子 包含 了 一 个 出 现在 
102 位 氨基 酸 之 后 的 过 早 终 止 密码 子 ,导致 了 一 个 截断 和 失 活 的 CYP345 的 出 现 。 与 此 相反 ， 
有 些 罕见 的 主要 出 现在 美国 黑人 中 的 CYP345*6 等 位 基因 与 一 个 SNP( g.14690g>a ) 有 关 , 这 
个 SNP 破 坏 了 7 号 外 显 子 内 剪 切 增强 子 的 结构 ,导致 了 7 号 外 显 子 彻底 地 从 成 熟 的 CYP3A5 的 
mRNA 中 删除 。 由 此 产生 的 转录 在 183 位 氨基 酸 之 后 出 现 一 个 阅读 框 和 过 早 终止 密码 子 的 
转换 ,随后 就 导致 一 个 截断 的 ` 失 活 的 CYP3A5 和 蛋白 质 出 现 。 

4. mRNA UTR SNP. 最后, SNP 可 能 位 于 成 熟 mRNA 的 5” 端 或 3” 端 未 翻译 的 调控 区 
(UTR )。 虽 然 未 翻译 的 mRNA 不 能 编码 蛋白 质 ,但 是 对 于 许多 基因 ,这 个 区 域 可 以 通过 二 级 
结构 的 形成 与 调控 蛋白 产生 互 作 ,增强 或 阻碍 mRNA 的 降解 来 改变 mRNA 的 稳定 性 或 直接 影 
响 蛋 白质 的 翻译 效率 ,这 些 都 影响 了 蛋白质 的 形成 速率 。 因 此 ,破坏 RNA 二 级 结构 的 SNP 可 
对 这 样 的 RNA 和 和 蛋白 互 作 产生 不 利 的 影响 。 

一 个 已 经 被 证 明 的 例子 是 , TY7MS 基 因 中 的 D 等 位 基因 通过 改变 RNA 和 蛋白质 互 作 来 
影响 基因 的 表达 。 该 基因 编码 胸 苷 酸 合成 酶 , 它 是 胸 苷 酸 从 头 合成 的 关键 酶 ,也 是 氟 尿 喀 
啶 等 抗 癌 药 的 治疗 靶 点 。D 等 位 基因 不 是 严格 意义 上 的 SNP, 它 是 一 段 由 6 个 核 芽 酸 构成 的 
DNA 伸 展区 (编码 RNA ), 这 段 DNA 被 插入 到 TYMS 基 因 中 的 3” -UTR 区 域 ,而 这 种 情况 在 大 
约 30%-~40% 的 欧洲 白人 中 存在 。 各 种 研究 表明 ,结合 并 促使 mRNA 衰变 的 核 蛋 白 AUF-1 对 
TYMS 的 D 等 位 基因 编码 的 nRNA 有 着 高 度 的 亲和力 ,从 而 导致 在 TYMS 的 mRNA 表达 量 降低 。 

此 外 ,近年 来 的 研究 提示 一 种 新 的 值得 关注 的 机 制 : 位 于 mRNA 非 翻 译 区 的 SNP 通 过 改 
变 miRNA 的 结合 位 点 从 而 影响 基因 表达 。miRNA 是 内 源 性 基因 的 产物 ,有 着 非常 短 的 RNA 
分 子 , 这 些 RNA 分 子 通过 RNA 干 扰 机 制 调 控 基 因 的 表达 ,加 速 RNA 的 降解 ,抑制 其 翻译 ,或 者 
两 者 都 有 。 一 个 典型 的 例子 是 ,乳腺 癌 细 胞 中 高 表达 的 miRN4-328 通 过 抑制 转运 子 ABCGC2 
增强 了 米 托 章 醒 的 敏感 性 。 : 


(=) 插入 缺失 和 微 卫 星 多 态 


尽管 不 如 SNP 普 遍 ,但 是 其 他 类 型 的 基因 突变 对 药物 基因 组 也 有 着 重要 的 影响 。 其 中 
最 常见 的 包括 简单 DNA 序 列 的 插入 和 缺失 ,其 范围 从 一 个 单个 的 DNA 碱 基 到 整个 基因 。 小 
的 缺失 往往 通过 和 SNP 一 样 的 方式 影响 基因 的 功能 , 相 比 较 于 简单 的 替换 , 碱 基 被 增加 或 是 
移 除 可 能 会 有 更 大 的 可 能 性 影响 基因 的 功能 。 

在 基因 的 蛋白 质 编码 区 内 ,即使 是 相对 较 小 的 缺失 也 会 对 和 蛋白质 的 功能 产生 严重 的 影 











HE E 2 PHARMACOBIOINFORMATICS sREVOLUTIONIZING DRUG DISCOVE! S i 
响 , 尤 其 是 当 插 入 或 删除 的 核 苷 酸 数目 不 是 3 的 倍数 时 。 在 后 者 的 情况 中 ,就 会 出 现 阅 读 框 
转变 ( 移 码 突变 ), 使 得 在 翻译 的 过 程 中 ,造成 碱 基 缺失 之 后 ,所 有 的 氨基 酸 序 列 都 被 很 大 程 
度 上 改变 ,而 且 总 是 遇 到 过 早 终止 密码 子 。 

缺失 的 一 种 特定 类 型 就 是 微 卫星 多 态 性 。 微 卫星 ( 核 背 酸 重 复 ) 是 一 段 DNA 区 域 ， 
其 中 包含 典型 的 重复 序列 ,这 种 重复 序列 包括 单 核 车 酸 重复 (ttttttttt ), = KR 
( tatatatatata ), — EZ FREH ( tactactactac ) 以 及 更 高 形式 的 重复 。 这 些 重复 区 域 因 为 DNA 的 
多 态 性 ,都 是 常见 位 点 ,这 导致 了 重复 的 扩张 ,可 能 与 它 经 过 的 DNA 聚 合 酶 产生 的 错误 有 关 。 
最 被 人 所 熟知 的 二 核 昔 酸 重复 多 态 性 与 药物 基因 组 学 相关 的 例子 就 是 Gilbert 综 合 征 , 在 
大 约 10% 的 欧洲 血统 的 白人 中 可 以 发 现 轻 度 未 结合 的 高 胆 红 素 血 症 。 这 种 综合 征 重复 扩张 

tata AK, tata 盒 位 于 编码 UDP- 葡 萄 糖 醛 酸 转移 酶 ( UGT ) 1A1 基 因 的 启动 子 内 ,这 种 酶 主 
要 负责 胆 红 素 的 结合 。 在 大 多 数 人 体内 ,在 5 未 端的 tata 盒 序列 延长 至 包含 了 6 个 “ta” 的 重 
复 ,然而 在 Cilbert 综 合 征 的 患者 中 有 7 个 (有 时 8 个 ) "ta" 的 重复 ,这 导致 了 UGT1A1 基 因 转 录 和 较 
少 。 有 趣 的 是 ,也 有 些 人 只 有 5 个 “ta” 重 复 , 相 较 于 有 6 个 “ta” 重 复 的 人 ,前 者 的 转录 水 平 更 高 。 

虽然 通常 由 于 很 低 的 UGT1A1 水 平 导 致 的 轻 度 未 结合 胆 红 素 血 症 几乎 没有 临床 症状 ， 
但 是 UGT1A1 也 是 很 重要 的 , 它 涉 及 一 些 重 要 药物 的 代谢 ,有 些 药物 有 相对 较 低 的 治疗 指数 。 
例如 , SN-=38 经 过 UGTIA1 的 葡萄 糖 醛 酸化 以 后 就 失去 活性 , SN-38 是 伊 立 替 康 的 活性 代谢 
物 , 伊 立 替 康 是 一 种 治疗 转移 性 结肠 瘤 的 药物 。 一 些 临 床 研 究 表明 ,携带 UGT1A1*28 等 位 基 

因 的 患者 有 更 大 的 风险 患 有 骨髓 抑制 .痢疾 及 其 他 不 良 反应 ,这 可 能 是 由 于 缓慢 消除 和 增加 
SN-38 作 用 的 结果 。 然 而 ,最 近 的 研究 表明 ，VG7747*28 基 因 型 的 毒性 预测 值 可 能 会 减少 重 
复 的 伊 立 替 康 给 药 。 在 VC77471*28 纯 合子 患者 中 观察 到 的 肿瘤 应 答 率 (药物 疗效 的 指标 ) 
会 更 高 ,可 能 是 由 于 癌 组 织 中 增强 SN-38 的 作用 。 由 此 推断 , UG7TI1471*28 可 能 影响 药物 的 疗 
效 和 毒性 。 


(=) 基因 拷贝 数 多 态 性 


相对 于 前 面 提 到 的 两 类 多 态 , 更 大 规模 的 DNA 重 排 ,会 导致 部 分 或 整个 基因 的 缺失 或 
复制 。 整 个 基因 的 缺失 和 复制 属于 基因 拷贝 数 突变 。 

CYP2D6 基 因 是 这 种 重要 的 基因 结构 改变 的 典型 例子 ,这 种 改变 对 许多 临床 上 很 重要 的 
药物 的 代谢 有 重要 影响 。CYP2D6*5 等 位 基因 出 现在 1%~7% 的 人 口中 , 它 与 整个 CYP2D6 基 
AGRE, CYP2D6 完 全 丧失 活性 以 及 不 良 代谢 表 型 有 关 。 相 比 之 下 ,多 达 13 个 CYP2D6 基 
因 的 功能 拷贝 已 经 被 证 实 存 在 于 一 些 个 体 当 中 ,通过 这 种 酶 的 代谢 导致 药物 的 超 高 清除 率 。 
虽然 在 亚洲 非洲 黑人 、 欧 洲 白 人 的 人 群 中 相对 罕见 , CYP2D6 基 因 的 复制 在 某 些 东 部 非洲 
人 群 (埃塞俄比亚 人 ) 中 高 达 29%。 其 他 药物 基因 组 学 中 重要 的 基因 拷贝 数 多 态 的 例子 包括 
CYP246( 在 CYP246*4 在 15% 的 亚洲 人 口中 缺失 )、UG7T2B17( 在 11% 至 12% 的 白人 与 黑人 中 
缺失 小 磺 基 转移 酶 1A1( 在 26% 的 欧洲 白人 和 63% 的 非 毅 美国 人 中 复制 ) 谷 胱 甘 肽 、S -转移 
酶 M1( 在 50% 至 60% 的 白 种 欧洲 人 中 缺失 ), 谷 胱 甘 肽 - S -转移 酶 T1( 在 10% 至 15% 的 欧洲 白 
人 中 缺失 )。 目 前 为 止 还 未 确定 的 基因 拷贝 数 变异 极 有 可 能 有 助 于 药物 基因 组 学 发 展 。 


(四 ) 其 他 DNA 序 列 突变 
其 他 与 药物 基因 组 相关 的 涉及 超过 一 个 核 苷 酸 差异 的 基因 突变 包括 替换 (一 个 序列 与 
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另 一 个 序列 替换 ), 倒 位 ( 反 向 副本 替换 原 有 序列 ), 易 位 (从 另 一 部 分 相同 的 基因 或 从 另 一 个 
基因 中 插入 序列 ) 以 及 转换 (一 个 基因 中 的 部 分 序列 变 为 另 一 个 基因 中 的 序列 )。 

CYP347*1C 等 位 基因 是 一 个 转换 的 例子 。 这 种 突变 可 能 是 由 于 CYP347 基 因 的 一 部 分 
重要 的 启动 子 变 为 了 CYP344 基 因 的 启动 子 。 这 种 变化 导致 了 DNA 序 列 元 件 的 增加 ,这 种 元 
件 对 于 结合 核 受 体 转录 因子 孕 烷 -X 受 体 (PXR ) 十 分 必要 ,在 CZP347 中 通常 不 会 发 现 雄 烷 
受 体 ( CAR ), 尽 管 CYP347 通 常 被 认为 是 胎儿 特定 的 亚 型 ,但 是 携带 CYP347*1C 的 个 体 ( 10% 
白 种 欧洲 人 ) 更 可 能 在 他 们 的 肝脏 和 小 肠 中 表达 大 量 的 CYP3A7 和 蛋白 ,导致 一 些 CYP3A 底 物 
更 高 的 清除 率 。 


(五 ) 等 位 基因 命名 


DNA 序 列 变异 十 分 复杂 ,所 以 有 必要 具有 一 个 相对 简单 而 精确 的 系统 来 为 基因 组 的 序 
列 突变 命名 。 人 类 基因 组 变异 协会 (http: //www.hgvs.org/mutnomen/ ) 已 经 提出 这 样 的 系统 。 
在 这 个 系统 中 , DNA 序 列 中 核 车 酸 变 化 的 描述 是 相对 于 序列 数据 库 中 参考 序列 而 言 的 。 例 
如 ,一 个 常见 SNP“CYP2B6 g.15631g>t”, CYP2B6 是 一 个 包含 变异 的 基因 ,“g” 表 明 它 是 基因 
组 上 的 DNA,“15631” 表 明 变 异 碱 基 对 出 现 的 相对 位 置 ,通常 从 基因 中 编码 蛋白 起 始 密 码 子 
的 第 一 个 核 苷 酸 算 起 。“g>t” 表明 在 参照 序列 中 , 乌 味 叭 C 被 变异 序列 中 的 胸腺 喀 啶 T 蔡 换 。 
一 般 地 ,，DNA 参 照 序 列 应 来 自 于 RefSeq 数 据 库 ,而 且 应 该 包含 数据 库 登 录 号 ,版 本 号 还 有 序 
列 中 起 始 密码 子 腺 味 叭 的 位 置 。 这 个 系统 稍 作 变 化 就 可 以 用 来 描述 基因 产物 的 变化 ,比如 
"CYP2B6 r.516g»u" ( g= SIRIS, u= 屎 喀 啶 ),“CYP2B6 c.516g>t,” 以 及 “CYP2B6 p.Q172H" 
(QRAR, H= 组 氨 酸 ), 描 述 对 于 相同 的 CYP2B6 SNP, ,在 预测 的 mRNA 、cDNA 以 及 蛋白 序 
列 中 相应 的 变化 。 

目前 , dbSNP 数 据 库 收 录 了 主要 的 人 类 SNP 以 及 短 的 插入 或 缺失 变异 。 在 该 数据 库 中 ， 
为 了 识别 和 检索 ,所 有 的 已 核实 的 SNP 已 经 被 指定 了 一 个 参照 SNP 号 码 以 rs 开头 。 例 如 ， 
CYP2B6 g.15631g>t 的 RefSNP ID 就 是 rs3745274。 这 些 SNP 数 据 ,包括 人 类 基因 组 序列 还 被 
整合 到 其 他 数据 库 中 ,以 至 于 能 够 对 于 一 个 给 定 的 基因 ,我 们 可 以 识别 它 的 绝 大 多 数 SNP。 
dbSNP 还 提供 了 其 他 相关 信息 ,包括 不 同 种族 和 和 群体 的 SNP 类 型 (编码 还 是 同 义 ), 一 些 SNP 的 
基因 型 ,和 等 位 基因 频率 。 

这 个 系统 恰当 地 描述 了 基因 序列 的 单 碱 基 变 异 , 但 是 当 描 述 同 一 个 等 位 基因 的 多 个 
序列 变异 (如 单 体型 ) 时 , 便 显得 过 于 繁复 了 。 因 此 ,人 类 基因 组 组 织 ( HUGO ) 已 经 提出 了 
下 面 的 等 位 基因 命名 系统 , 它 能 够 描述 复杂 的 等 位 基因 突变 。 这 个 系统 已 经 被 CYP 等 位 基 
因 命 名 委员 会 采纳 ,命名 新 等 位 基因 的 完整 规则 可 在 网 上 获得 。 简 单 地 说 “参照 ”基因 序 
列 被 指定 为 1, 比 如 CYP2B6*1, 这 就 是 CYP2B6 基 因 的 参照 序列 。 相 应 的 蛋白 质 产物 被 称 为 
CYP2B6.1。 如 果 第 一 个 序列 的 变异 确定 会 有 功能 相关 的 影响 , 它 将 被 指定 为 *2, 随 后 的 突变 
被 指定 为 一 个 新 数字 ,这 个 数字 按 提交 的 先后 顺序 依次 增加 ,比如 在 CYP2B86*2、CYP2B6*3、 
CYP2B6*4 , CYP2B6*5 和 CYP2B6*6 中 的 *3、*4、*5、*6 等 。 相 应 的 蛋白 质变 异 为 CYP2B6.2， 
CYP2B6.3, CYP2B6.4, CYP2B6.5 和 CYP2B6.6。 对 于 其 他 尚 无 法 确定 功能 的 基因 变异 ,例如 
与 已 知 SNP 连 锁 的 同 义 SNP、 内 含 子 中 的 变异 、 启 动 子 中 的 变异 等 子 群 ,可 以 通过 添加 一 个 字 
母 的 方式 来 区 分 标注 ,比如 CYP2B6*6B。 

目前 ,基因 或 特定 疾病 的 命名 委员 会 已 经 负责 命名 新 的 等 位 基因 变异 ,也 负责 维护 已 
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知 等 位 基因 的 可 获得 参考 文献 列表 。 大 量 特定 基因 变异 数据 库 的 列表 可 以 通过 URL http: / 


www.genomic.unimelb.edu.au/mdi/dblist/glsdb.html 获 得 。 


三 .药物 基因 组 学 生物 标记 的 预测 》》 


有 两 种 主要 的 方法 可 用 作 预 测 影响 药 效 的 基因 组 变异 ( 即 SNP 等 生物 标记 ) 一 一 候选 基 
因 分 析 和 全 基因 组 分 析 ( 图 12-10 )。 这 两 种 分 析 方 法 中 , DNA 样 本 是 从 给 药 人 群 中 获得 的 ， 
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图 12-10 识别 药物 基因 组 学 生物 标记 的 方法 
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这 些 人 需要 在 一 个 事先 确定 的 时 间 点 检测 药物 的 反应 状态 (有 效 、 无 效 \ 不 良 反 应 等 )。 从 中 
得 出 的 结果 变量 称 为 药物 表 型 ( drug phenotype )。 表 型 可 以 是 二 元 变量 (如 有 效 和 无 效 ), 也 
可 以 是 连续 变量 (如 患者 维持 药物 剂量 )。 


(一 ) 候选 基因 分 析 法 


这 种 方法 有 一 个 前 提 条 件 , 就 是 需要 事先 知道 参与 药物 反应 .影响 药物 效应 的 基因 。 
般 地 ,候选 基因 包括 编码 药物 代谢 酶 的 基因 编码 吸收 和 排除 的 转运 蛋白 的 基因 ` 编 码 药物 
刘 标 受 体 或 酶 的 基因 。 该 方法 通常 是 先 确 定 给 药 个 体 的 表 型 ,然后 检测 候选 基因 中 SNP 等 
遗传 变异 在 给 药 群 体 中 的 状态 ,最 后 应 用 统计 学 方法 分 析 表 型 一 基因 型 间 的 关系 ,从 而 鉴别 
可 用 于 预测 不 同 药物 反应 的 遗传 学 标记 。 通 常 ,这些 分 析 也 能 够 解释 种 族 年龄 和 性 别 等 其 
他 重要 的 协 变量 。 


(二 ) 全 基因 组 分 析 方 法 


全 基因 组 的 连锁 不 平衡 分 析 是 遗传 学 中 鉴别 致 病 基 因 的 经 典 方 法 ,目前 也 提倡 用 这 类 
方法 发 现 新 的 药物 基因 组 学 生物 标记 。 这 类 方法 不 需要 药物 应 答 机 制 的 先 验 知识 ,因此 , 它 
们 会 发 现 一 些 之 前 与 感 兴趣 药物 没有 联系 的 基因 。 最 初 的 分 析 对 象 是 一 个 具有 良好 特性 的 
遗传 标记 集合 ,通常 是 分 布 在 基因 组 中 的 多 态 性 位 点 ( 微 卫星 和 SNPs ), 其 基因 型 结果 跟 药 物 
表 型 是 相关 的 。 一 个 与 表 型 高 度 相 关 的 基因 组 区 域 会 被 检测 出 具有 高 密度 的 遗传 标记 , 直 

到 一 个 特别 地 基因 被 检测 出 来 ,从 这 个 基因 序列 中 可 能 会 直接 的 识别 出 新 的 遗传 变异 ,这 些 
遗传 变异 是 和 药物 表 型 预测 是 高 度 相 关 的 。 


(三 ) 连锁 不 平衡 . 单 体型 和 标签 SNPs 


鉴别 基因 变异 位 点 的 一 个 重要 特征 是 连锁 不 平衡 。 连 锁 不 平衡 是 指 在 染色 体 上 距离 相 
对 很 近 的 位 点 倾向 于 共同 遗传 。 高 度 连锁 的 基因 变异 位 点 称 为 单 体型 ,在 很 多 例子 中 单 体 
型 被 排列 在 DNA 不 连续 的 区 域 中 , 称 为 单 体 型 区 块 ( haplotype blocks ), 这 些 区 块 是 被 基因 重 
组 的 热点 ( gene recombination hotspots ) 分隔 开 的 (图 12-11 )。 因 此 ,没有 必要 定位 精确 的 ,与 
表 型 成 因 有 显著 关系 的 变异 位 点 ,这 些 显 著 关 系 在 同 个 单 体型 区 块 中 的 其 他 变异 位 点 中 也 

能 找到 。 

随 着 高 通 量 全 基因 组 SNP 微 阵列 的 出 现 ,使 得 一 步 完成 全 基因 组 基因 型 检测 成 为 可 能 。 
虽然 最 终 有 可 能 实现 对 基因 组 中 全 部 SNP 的 鉴别 ,但 是 这 个 并 不 是 必要 的 ,因为 如 前 面 所 说 
的 ,许多 的 SNPs 是 位 于 同一 个 单一 型 中 的 ,因此 对 每 个 SNP 进 行 检测 是 宛 余 的 。 一 个 非常 
严格 ( parsimonious approach ) 的 方法 就 是 对 特别 的 单 体型 选 出 一 个 SNPs 的 最 小 集合 , 称 为 
单 体型 标签 SNPs( tag SNPs 或 tSNPs )。 图 12-12 展 示 了 一 种 鉴别 单 体型 中 tSNPs 的 方法 。 为 
了 绘制 出 全 人 类 基因 组 的 全 部 单 体型 ,国际 人 类 基因 组 单 体型 图 计划 ( international HapMap 
project ) 已 完成 对 tSNPs 的 鉴别 。 为 了 验证 这 种 方法 ,一 个 由 904 个 {SNPs 构 成 的 集合 最 近 被 鉴 
别 出 来 ,还 发 现 其 代表 了 参与 人 类 药物 代谢 和 处 置 的 55 个 基因 的 大 部 分 遗传 变异 ,这 意味 着 
tSNPs 将 在 识别 新 的 药物 基因 组 标记 中 有 广泛 的 应 用 。 

一 个 很 重要 的 问题 是 从 一 个 给 出 的 参考 人 群 中 鉴别 出 的 (SNPs 在 不 同 的 人 群 中 是 否 具 
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Haplotype blocks identified by 
linkage disequilibrium analysis 


Block 1 Block 2 


UGTIA9 


' 
, UGTIA6 





Linkage disequilibrium (r? value) ^ 
Analysis by LDPlotter 


.9.00 0.10 020. 


图 12-11 连锁 不 平衡 定义 单 体型 块 边界 

本 例 中 检测 了 54 个 白 种 人 个 体 的 UGTIA 基 因 的 SNPs, 测 序 范围 长 约 150 000bp， 
包括 外 显 子 1 区 ,调控 区 5 ”一 UGTs 1A9、1A6、 和 1Al, 以 及 3” 一 UTR 区 。UGT 的 连锁 
不 平衡 应 用 软件 LDPlotter( https: //www.pharmgat .org/Tools ) 中 的 回归 分 析 评 
价 。 图 中 ,圆圈 的 灰 度 代表 每 对 SNP 比 较 的 回归 值 。 分 析 结 果 表 明 , 两 个 不 同 的 
连锁 不 平衡 区 域 , 块 1 (UGT1A9,1A6, and 1A1 SNPs) 和 块 2 ( 3’ 一 UTR SNPs ), 县 
有 块 内 高 上 和 块 间 低 天 的 特点 。 可 见 ,分 开 的 单 体型 块 可 以 用 于 描述 这 些 区 域 的 
遗传 变异 


有 可 转移 性 。 一 项 关于 52 个 不 同人 群 的 研究 表明 这 种 可 能 是 存在 的 ,从 这 些 人 和 群 中 鉴别 出 
的 83% 的 共有 的 单 体型 在 产生 国际 人 类 基因 组 单 体型 图 的 人 群 中 也 是 共有 的 。 然 而 ,一 个 
重要 的 警告 是 随 着 假定 的 从 非洲 起 源 的 人 类 祖先 的 遗传 距离 的 缩小 , 单 体型 的 多 样 性 在 增 
加 。 结 果 , 很 有 必要 补充 一 大 部 分 共有 的 tSNPs 和 人 群 特异 的 ISNPs, 特 别 是 在 那些 很 多 近代 
非洲 祖先 的 人 和 群 中 ， 

在 基因 组 范围 内 对 表 型 与 基因 型 联系 的 研究 有 一 个 重大 隐患 ,是 由 多 重 检验 引起 的 潜 
在 的 大 量 假 阳 性 联系 。 例 如 ,对 500 000 个 SNPs 进 行 单 变量 分 析 , 如 果 采 用 cx 为 0.05 ,理论 上 会 
有 25 000 个 假 阳 性 的 结果 。 虽 然 假 阳性 率 可 以 通过 矫正 p 值 来 减 小 ,如 Bonferroni、FDR 等 多 
重 检验 校正 ,但 是 这 同样 也 会 消除 一 些 比较 弱 的 关联 关系 ,而 这 些 关 系 可 能 仍 与 表 型 的 决定 
有 关 。 折 中 的 办 法 是 ,选择 那些 有 最 强 关联 的 变异 ,同时 通过 文献 或 额外 的 实验 来 验证 所 发 
现 表 型 相关 基因 的 生物 学 意义 。 而 且 , 在 候选 基因 和 全 基因 组 方法 中 ,非常 重要 的 是 要 通过 
对 不 同 患者 人 群 的 独立 研究 来 证 实 找到 的 药物 基因 组 标记 的 通用 性 。 

由 于 全 基因 组 分 析 方 法 主要 是 用 相对 常见 的 SNPs( 通 常 是 >5% 的 等 位 基因 频率 ), 这 将 
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图 12-12 单 体 型 分 析 与 tagSNP 识 别 

本 例 中 ,一 个 约 10 000bp 长 的 基因 在 100 个 个 体 中 测序 ,并 应 用 程序 

fastPhase (http: //www.stat.washingtonedu/stephens/software.htm] ) 推断 单 

体型 ,结果 识别 出 两 个 高 连锁 区 域 (区 域 1,10~3065bp; C332, 7027 —9998 )。 

每 个 区 域 中 最 常见 得 单 体型 与 Genebank 参 考 序列 一 致 ,定义 为 单 体型 1。 对 

于 变异 单 体型 开 到 V ,不 同 于 参考 序列 的 SNPs 特 异地 属于 每 个 变异 单 体型 ( 灰 

色 )。n 为 被 研究 群体 中 具有 该 单 体型 的 染色 体 数 目 
无 法 识别 出 罕见 SNPs 或 其 他 序列 变异 。 单 个 的 罕见 变异 有 潜在 的 能 力 ( 是 从 完全 的 基因 失 
活 来 说 ) 在 一 个 特别 的 个 体 中 对 药物 表 型 产生 显著 的 影响 ,然而 ,多 个 罕见 变异 产生 的 累积 
效应 有 助 于 人 和 群 总 体 的 表 型 多 样 化 。 因 此 ,目前 急需 兼顾 候选 基因 分 析 和 全 基因 组 分 析 两 
种 策略 的 新 方法 。 


(四 ) 药物 基因 组 学 生物 标记 资源 


目前 生成 的 大 量 药 物 基 因 组 数据 ,非常 需要 一 个 统一 的 资源 来 访问 这 些 信息 。 许 多 在 
线 的 数据 库 提供 预测 信息 来 判定 遗传 变异 与 药物 反应 之 间 的 联系 。 第 一 个 也 是 目前 最 全 面 
的 一 个 数据 库 是 药物 基因 组 学 和 遗传 药理 学 数据 库 PharmGKB ( http: /Iwww.pharmgkb.org Jo 
PharmGKB 提 供 药 物 基因 ( pharmacogenes, 如 对 药物 反应 有 明确 影响 的 基因 ) 的 超 链接 注释 
信息 。 这 些 信 息 是 从 多 个 资源 中 收集 来 的 ,包括 发 表 的 文献 、NIH 资 助 的 遗传 药理 学 实验 ， 
和 其 他 一 些 学 术 和 商业 的 资源 。 所 有 NIH 资 助 的 项 目 都 要 将 其 药物 基因 组 的 信息 放 到 这 个 
数据 库 中 。 





四 、 药 物 基因 组 学 生物 标记 的 应 用 》》 


药物 基因 组 学 生物 标记 通过 各 种 途径 指导 临床 医师 给 药 。 这 些 生物 标记 的 一 个 主要 








用 途 就 是 判断 一 个 患者 的 肿瘤 是 否 会 对 一 种 特定 药物 产生 反应 ,这 是 要 看 这 个 基因 的 表 
达 产 物 是 否 会 被 该 药物 所 靶 向 。 例 如 ,将 病 患 体内 EGFR 过 表达 的 检测 结果 ,作为 是 否 采用 
西 妥 昔 单 抗 治疗 转移 性 直肠 癌 和 头颈 瘤 患 者 的 依据 。 另 一 个 例子 是 ,用 曲 妥 单 抗 治 疗 乳 
腺 癌 患 者 前 需要 确认 HER2/neu 的 过 表达 状态 。FDA 颁 布 的 相关 药物 标签 信息 ( drug label 
information ) 中 明确 指出 ,在 给 患者 使 用 曲 妥 单 抗 等 药物 前 必须 检测 相关 的 药物 基因 组 生物 
标记 。 制 定 这 样 的 规范 是 因为 ,最 初 认定 的 药物 治疗 作用 数据 是 从 被 检测 出 阳性 反应 的 患 
者 中 得 到 的 ,而 后 续 研 究 的 结果 支持 它们 的 有 效 性 ,例如 多 个 研究 报道 了 曲 妥 单 抗 对 HER2/ 
neu 过 表达 阳性 的 乳腺 癌 患 者 具有 更 好 的 疗效 。 

最 近 , FDA 建 议 ,在 药物 使 用 前 ,应 对 两 种 新 的 药物 基因 组 生物 标记 进行 检测 (但 不 是 必 
须 的 )。 它 们 是 , TPMT 硫 味 吟 甲 基 转 移 酶 ) 的 *2 和 *3 等 位 基因 和 UGTI41*28 等 位 基因 。 携 
带 TPM7 纯 合子 变异 的 白血病 患者 在 使 用 咪唑 硫 味 叭 或 6- 琉 基 味 叭 治疗 时 将 增加 严重 骨髓 
抑制 的 风险 ,而 携带 UG7TI1471 纯 合子 变异 的 转移 性 结肠 癌 患 者 在 使 用 伊 立 蔡 康 治疗 是 同样 会 
增加 骨髓 抑制 的 危险 。 在 这 两 个 例子 中 ,与 杂 合 子 和 野生 型 患者 相 比 , 纯 合 子 变异 的 患者 的 
初始 用 药剂 量 显著 减少 ,不 过 减少 的 程度 没有 明确 的 列 出 。 在 药物 标签 信息 中 提供 的 大 多 
数 其 他 药物 基因 组 生物 标记 只 是 出 于 提供 信息 的 目的 ,而 不 是 关于 检测 目的 。 关 于 被 批准 
药物 标签 的 一 个 全 面 的 已 证 实 的 药物 基因 组 生物 标记 的 列表 通过 FDA 的 网 站 查询 。 

除了 在 药物 治疗 之 前 做 检测 之 外 ,也 有 很 多 情况 是 在 治疗 过 程 中 检测 的 。 例 如 ,在 对 
HIV 感 染 患者 的 治疗 过 程 中 ,可 以 监测 到 病毒 的 基因 型 改变 ,并 且 在 抵抗 表 型 出 现 的 时 候 调 
整 药物 用 量 。 同 样 的 方法 也 可 以 用 于 其 他 感染 性 疾病 以 及 在 癌症 治疗 中 的 耐 药 等 情形 。 

(REA Atn xD A) 


参考 文献 


. Donna Maglott， Jim Ostell, Kim D. Pruitt, et al. Entrez Gene: gene-centered information at NCBI. Nucleic 
Acids Res,2007,35( Database issue ): D26-D31. 

. Zhenting Gao, Honglin Li, Hailei Zhang, et al. PDTD: a web-accessible protein database for drug target 
identification. BMC Bioinformatics, 2008,9 : 104. 

. Daniel R Rhodes, Shanker Kalyana-Sundaram, Vasudeva Mahavisno, et al. Oncomine3. 0 : genes, pathways, 
and networks in a collection of 18 000 cancer gene expression profiles. Neoplasia, 2007 ,9( 2 ): 166-180. 


[€ 


N 


Ww 


4. Le Novére N, Bornstein B, Broicher A, et al. BioModels Database: a free, centralized database of curated, 
published, quantitative kinetic models of biochemical and cellular systems. Nucleic Acids Research , 2006 , 34 
( Database issue ); D689-D601. 

. Brett G. Olivier, Jacky L. Snoep. Web-based kinetic modelling using JWS Online. Bioinformatics , 2004 , 20( 13 ): 
2143-2144. 

. David J. Payne, Michael N. Gwynn, David J, et al. Genomic approaches to drug discovery. Curr Opin Chem 
Biol 2006, 10( 4 ): 303-308. 

. Nuria Conde-Pueyo, Andreea Munteanu, Ricard V Solé , et al. Human synthetic lethal inference as potential 
anti-cancer target gene detection. BMC Syst Biol, 2009,3 : 116. 


Nn 


fon) 


~ 


oo 


. Hu G, Agarwal P. Human disease-drug network based on genomic expression profiles. PLoS One,2009,4( 8 ): 
e6536. 
. Aravind Subramanian, Heidi Kuehn, Joshua Gould, et al. GSEA-P: a desktop application for Gene Set 


o 


第 十 二 章 ”药物 生物 信息 学 523 — 


\ 924 第 十 二 章 ”药物 生物 信息 学 











COD ^ 1 Q DEVOLIITIONIZING 
FÜRMAIIUO $ RCVULUTIUNIZIIN 





> PHAR! 


A 
i A 





Enrichment Analysis. Bioinformatics , 2007 ,23( 23 ): 3251-3253. 


10. Reija Autio, Sami Kilpinen, Matti Saarela, et al. Comparison of Affymetrix data normalization methods usingó 


11. 


12. 


I3: 


14. 


15. 


16. 


T7: 


18. 


2l. 


22. 


23. 


24. 


926 experiments across five array generations. BMC Bioinformatics , 2009, 10( Suppl 1 ): S24. 

Phillip Stafford, Marcel Brun. Three methods for optimization of cross-laboratory and cross-platform 
microarray expression data. Nucleic Acids Research , 2007 ,35( 10 ): e72. 

Daniel R. Rhodes, Jianjun Yu, K. Shanker, et al. Large-scale meta-analysis of cancer microarray data 
identifies common transcriptional profiles of neoplastic transformation and progression. Proc Natl Acad Sci 
USA,2004, 101( 25 ): 9309-9314. 

Lei Xu, Donald Geman, Raimond L Winslow. Large-scale integration of cancer microarray data identifies a 
robust common cancer signature. BMC Bioinformatics , 2007,8 : 275. 

Bakheet TM, Doig AJ. Properties and identification of human protein drug targets. Bioinformatics , 2009 ,25 ( 4 ): 
451-457. 

Xu J, Li Y. Discovering disease-genes by topological features in human protein-protein interaction network. 
Bioinformatics , 2006 ,22( 22 ): 2800-2805. 

Gabriel Östlund, Mats Lindskog, Erik L. L. Sonnhammer. Network-based identification of novel cancer genes. 
Mol Cell Proteomics, 2010,9( 4 ): 648-655. 

Li Li, Kangyu Zhang, James Lee, et al. Discovering cancer genes by integrating network and functional 
properties. BMC Medical Genomics ,2009,2 : 61. 

Xiaofang Hu, Yan Zhang, Aili Zhang, et al. Comparative serum proteome analysis of human lymph node 
negative/positive invasive ductal carcinoma of the breast and benign breast disease controls via label-free 
semiquantitative shotgun technology. OMICS, 2009, 13( 4 ): 291-300. 


. Sleno L, Emili A. Proteomic methods for drug target discovery. Curr Opin Chem Biol,2008, 12( 1 ): 46-54. 
20. 


Elin Pohjanen, Elin Thysell, Johan Lindberg, et al. Statistical multivariate metabolite profiling for aiding 
biomarker pattern detection and mechanistic interpretations in GC/MS based metabolomics. Metabolomics, 
2006, 2( 4 ): 257-268. 

P Sridhar, B Song, T Kahveci, et al. Mining metabolic networks for optimal drug targets. Pac Symp 
Biocomput , 2008,13 : 281-302. 

Z Li, RS Wang, XS Zhang, et al. Detecting drug targets with minimum side effects in metabolic networks. IET 
Syst Biol, 2009,3( 6 ); 523-533. 

Yongliang Yang, S. James Adelstein, Amin I. Kassis. Target discovery from data mining approaches. Drug 
Discov Today , 2009, 14( 3-4 ): 147-154. 

Wang Hongning, Huang Minlie, Zhu Xiaoyan. Extract interaction detection methods from the biological 
literature. BMC Bioinformatics, 2009,10( 1 ): S55. 





3' 非 翻 译 区 
5' 非 翻译 区 
p fit 

B 球 蛋白 

B -Jr& 

p -转角 

0 环形 

AM 

BLAST 


BLOSUM 

cDNA 芯片 

DNA 甲 基 转 移 酶 
DNA 甲 基 转 移 酶 3 Like 
DNA 甲 基 转 移 酶 3A 
Donna Maglott 

FN 

FP 

general protein/mass analysis for windows 
GPCR mode 

Kir 

k 均 值 聚 类 

MIM 

MLE 

n 售 交叉 证 实 

Oligomer modeling 


PDB 数据 库 


B -strand 


beta-globin 
B -sheet 
B -turn 


Q loop 


association method 


照 索引 


285 
285 
154 


154 
155 
155 
198 


basic local alignment search tool, 基 本 局 部 联 配 


搜索 工具 


block substitution matrix 
cDNA microarray 

DNA methyltransferase 
DNMT3L 

DNMT3A 


false negative 

false positive 

GPAMW 

G 和 蛋白 偶 联 受 体 模式 
k-nearest neighbor 

k-means clustering 
Mendelian inheritance in man 
maximum likelihood estimation 
n—fold cross validation 
FRE ABR 

protein data bank, PDB 


40 


76 

457 
466 
466 
523 
112 
112 


181 
108 


369 
198 
111 
181 
165 
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RNA 测 序 

RNA 诱 导 的 沉默 复合 物 
S-AR E PMAR 

TN 

TP 

X- 射 线 晶 体 分析 法 
Z 值 


癌 基 因 组 剖析 计划 
癌症 差异 甲 基 化 区 域 
安琪儿 综合 征 


贝 - 威 二 氏 综 合 征 
比 对 界面 

比较 基因 组 学 
比较 模 建 法 

表达 数量 性 状 位 点 
表达 序列 标签 

表 观 遗传 变异 
表 观 遗传 学 


参考 序列 

测试 集 

层次 聚 类 

插入 /删除 多 态 
差异 甲 基 化 的 区 域 
差异 甲 基 化 区 域 
差异 甲 基 化 杂交 
缠绕 法 
超 二 级 结构 

超 家 族 

沉默 子 

重 编程 差异 甲 基 化 区 域 
重 抽样 

HAH 

重复 序列 

重 亚 硫酸 盐 测 序 


RNA-seq 

RNA-induced silencing complex, RISC 
SAM 

true negative 

true positive 

X-ray diffraction crystallography 


Z-score 
A 


cancer genome anatomy project, CGAP 
C-DMRs 


Angelman syndrome 
B 


Beckwith-Wiedmann syndrome 
Alignment Interface 

comparative genomics 

comparative modeling 

expression quantitative trait loci, eQTL 
expressed sequence tag, EST 
epimutations 


epigenetics 
C 


reference sequence 

test set 

hierarchical clustering 

In/Del 

differentially methylated region, DMR 
DMRs 

DMH 

wrapper method 

supersecondary structure 


super family 


R-DMRs 
re-sampling 
contig 


repetitive sequence 


BS-seq 


468 
409 
457 
112 
112 
162 
194 


372 
473 
466 


466 
181 
7, 233 
180 
392 
21,43 
483 
456 


78 

111 
102 
376 
466 
473 
459 
92 

155 
169 
289 
473 
111 
43 

61 

469 


重 亚 硫酸 盐 测序 技术 


重 亚 硫酸 盐 甲 基 化 谱 
初始 miRNA 
传递 不 平衡 检验 
串联 重复 数据 库 

位 共振 

从 头 预测 方法 


代谢 通路 
代谢 网 络 进化 
RTT RE ASHE 
PRT RZ ASE 
单亲 二 售 体 
单 体 

单元 

A ALEX 

和 蛋白质 
蛋白 质 互 作对 


和 蛋白质 结构 分 类 数据 库 


蛋白 质 结构 域 
和 蛋白质 组 学 


等 位 


等 位 基因 特异 性 甲 基 化 


点 突变 可 接受 矩阵 
点 阵 


iB 


短 串联 重复 DNA 数 据 库 


断裂 基因 

对 照 细 胞 

多 重 命中 

多 基因 病 

多 梳 家 族 重 白 
多 维度 标 度 技术 
多 序列 比 对 


二 分 网 络 
二 级 结构 
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bisulphite conversion followed by capture and 


sequencing, BC-seq 

bisulfite methylation profiling, BiMP 
primary RNA, pri-RNA 

transmission disequilibrium test, TDT 
tandem repeats database, TRDB 
nuclear magnetic resonance, NMR 


Abinitio 
D 


metabolic pathway 

metabolic network evolution 

single nucleotide polymorphisms , SNPs 
single-nucleotide polymorphism , SNP 
UPD 

monomer 


singletion 


protein interaction pair 

structural classification of protein, SCOP 
protein domain 

proteomics 

allele 

ASM 

point accepted matrix, PAM 

dot matrix 


read 


short tandem repeat DNA internet database, 


STRBase 

interrupted gene 

control cell 

multiple hit 

ploygenic disorder 

polycomb group protein, PeG 
multi-dimensional scaling, MDS 


multiple sequence alignment 


E 


bipartite network 


secondary structure 


461 


460 
408 
381 
28 

163 
180 


337 
238 
375 


467 
157 
228 
236 
505 
236 
168 
169 
11 

375 
489 
34 


424 


28 


56 
76 
229 
368 
478 
187 
43 


Ww 
o 
o 


154 
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发 育 差异 甲 基 化 区 域 
发 育 重 编程 
反馈 环 

反 转 录 

飞 摩 尔 

非 编码 RNA 

非 编 码 RNA 数 据 库 
非 翻 译 区 

非 共 价 键 形式 
非 同 义 SNP 
分 层 聚 类 法 

分 类 系统 理论 
分 裂 法 

分 子 病 

分 子 量 

分 子 钟 

峰值 探测 

负 选 择 

复合 体 

复杂 疾病 


高 分 值 片段 对 
高 通 量 组 学 

个 体 化 治疗 

个 体 间 的 差异 甲 基 化 区 域 
个 体内 的 差异 甲 基 化 区 域 
工程 模式 

功能 基因 组 学 

供 体位 点 

共性 序列 

共有 序列 

SEPTIES Y 

关联 研究 

光纤 微 珠 芯片 

国际 人 类 单 体 型 图 计划 
国际 人 类 基因 组 单 体型 图 计划 


D-DMRs 

developmental reprogramming 
feedback loop 

reverse transcription 
femtomole 

non-coding RNA 
noncoding RNA database 
untranslated region, UTR 
non-covalent 
non-synonymous SNP 
hierarchical clustering 
system of taxonomy 
divisive 

molecular disease 
molecular weight, MW 
molecular clock 

peak calling 

negative selection 
complex 


complex disease 


G 


high-scoring pairs, HSPs 
high-throughput omics 
personalized medicine 
Inter-DMRs 
Intra-DMRs 

Project mode 

functional genomics 
donor 

consensus sequence 
consensus sequence 
oligonucleotide microarray 
association study 


beadarray microarray 


international HapMap project, HapMap 


The International HapMap Project 


473 
489 


76 

164 
424 
28 

408 
198 
376 
54 

145 
102 
202 
164 
224 
464 
226 
203 
368 


40 


473 
473 
181 
5,8 
58 
43 
288 
TI 
380 
79 
382 


,118,233 
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过 出 现 
过 滤 法 


罕见 疾病 
核酸 
核糖 体 RNA 、 
核心 启动 子 “ 
后 基因 组 

后 基因 组 学 
互补 对 

化 学 交 联 
环境 基因 组 计划 
荟萃 标 志 物 


肌 球 蛋白 
基因 本 体 论 

基因 表达 谱 

基因 复制 
基因 富 集 分 析 
基因 图 谱 

基因 芯片 

基因 型 
基因 组 tRNA 数据 库 
基因 组 测序 序列 
基因 组 范围 关联 研究 
基因 组 功能 注释 
基因 组 学 
基于 多 维 标 度 技术 
基于 相似 性 方法 
集 富 集 分 析 

加 权 网 络 

家 族 

甲 基 化 CpG 岛 扩 增 法 


甲 基 化 DNA 人 免疫 共 沉 淀 测定 技术 


甲 基 化 测序 
甲 基 化 间 区 位 点 扩 增 


甲 基 化 敏感 切割 位 点 计数 


over-presentation 


filter method 


H 


rare disease 


rRNA 


post-genomics 

post—genomics 

complementary pairs 
cross-linking 

environment genome project, EGP 


Meta-signature 


myoglobin 

gene ontology 

gene expression profile 

gene duplication 

gene set enrichment analysis, GSEA 
gene map 

gene chip 

genotype 

genomic tRNA database, GtRDB 
genome survey sequences , GSS 
genome-wide association study, GWAS 
genome annotation 

genomics 

MDS 

similarity—based approaches 

gene set enrichment analysis 
weighted network 

family 

methylated CpG island amplification, MCA 
MeDIP 

Methyl-seq 

AIMS 


methylation-sensitive cut counting, MsCC 


140 
92 


368 
505 
284 
288 
118 
5,8 
198 


369 
507 


139 


75 
375 
28 

21 
389 

8, 118 


194 
193 
479 
333 
157 
459 
458 
460 
459 
460 
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甲 基 化 敏感 随机 性 引物 PCR 


甲 基 化 数量 性 状 位 点 

假 基因 数据 库 

简捷 模式 

简约 信息 位 点 

简约 重 亚 硫 酸 盐 测序 技术 


酵母 双 杂 交 
结 点 系谱 


结构 风险 最 小 化 原则 


结构 基因 组 学 
结构 域 

介 数 

进化 创新 
进化 基因 组 学 
进化 论 

净化 选择 

局 部 表面 特征 
肾 类 分 析 
聚 类 系数 
卷曲 

卷曲 螺旋 
决策 树 
均衡 正确 率 


开放 读 码 框 
拷贝 数 变异 
拷贝 数 变异 
可 变 模板 结构 
空位 
空位 罚 分 
空位 扩展 
空位 设置 


冷冻 电子 显微镜 


methylation—sensitive arbitrarily primed PCR, MS- 


AP-PCR 

methQTLs 
PseudoGene 

First Approach mode 


parsimony-informative site 


reduced representation bisulphite sequencing, 


RRBS 
yeast two Hybrid, Y2H 


Term Lineage 


structural risk minimization inductive principle, 


SRM 

structural genomics 
domain 

betweenness 
evolutionary innovation 
evolutionary genomics 
theory of evolution 
purify selection 

local surface patterns, clefts 
cluster analysis 
clustering coeffcient 
coil 

coiled-coil 

decision tree 


balanced accuracy 


K 


Open Reading Frame, ORF 
copy number variants, CNV 
copy number variant, CNV 
alternative template structures 
gap 

gap penalty 

gap extension 


gap opening 


E 


cryoelectron microscopy 


459 


489 
27 

181 
223 


461 


334 
122 


110 


233 
156, 157 
343 
226 
233 
145 
226 
196 
98 
343 
155 
67 
108 
112 


163 
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连锁 块 linkage block 376 
连通 度 或 度 degree 342 
联系 和 纯化 -质谱 tandem affinity purification — mass spectrometry , sa 
TAP-MS : 
ACA AN AB LIE sickle-cell anemia 202 
亮 氨 酸 拉链 leucine zipper 156 
留 一 法 交叉 证 实 leave-one-out cross validation, LOOCV 112 
M 
美国 国家 生物 技术 信息 中 心 NCBI 20 
美国 国立 生物 技术 信息 中 心 national center for biotechnology information, "t 
NCBI 
免疫 共 沉 淀 co-immunoprecipitation 334 
敏感 性 sensitivity 112 
模糊 功能 结构 fuzzy functional forms , FFFS 193 
模块 化 测度 modularity measure 349 
模拟 退火 算法 simulated annealing algorithm 90 
模式 识别 pattern recognition 164 
模 体 motif 428 
模 体 Motif 58 
N 
凝聚 法 agglomerative 102 
O 
欧洲 分 子 生物 学 研究 中 心 EMBL 20 
P 
25 5 [n] paralogy 32 
旁 系 同 源 体 paralogs 32 
配对 比 对 pairwise alignment 45 
偏 序 图 partial-order graph 47 
平均 距离 average distance 344 
评价 准则 evaluation criteria 89 
普 瑞 德 威 利 综合 征 Prader- Willi syndrome 466 
Q 


启动 子 um 
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启发 式 搜 索 
前 导 肽 
前 馈 环 
前 体 miRNA 
切割 点 


全 基因 组 乌 枪 重 亚 硫酸 盐 测序 


全 面 高 通 量 芯片 相对 甲 基 化 技术 


染色 质 免 疫 共 沉 淀 -芯片 
热点 

热 图 

人 类 表 观 基因 组 计划 
人 类 基因 组 计划 

日 本 的 DNA 数 据 库 


三 维基 序 

上 位 效应 
生物 标记 
生物 信息 学 
生物 学 标记 
实验 细胞 

受 体位 点 
树 长 

数据 标准 化 
数量 性 状 位 点 
双向 搜索 
双重 的 负 反馈 环 
顺序 

搜索 策略 
随机 缠绕 
随机 搜索 


heuristic search 90 
leader peptide 67 
Feed-forward Loop 444 
pre-miRNA 408 
cut point, CP 440 
whole-genome shotgun bisulfate sequencing, jg 
WGSBS 
comprehensive high-throughput arrays for relative ag 
methylation, CHARM 

R 
ChIP 460 
chromatin immunoprecipitation sequencing, 
ChIP-seq iid 
ChIP-chip 463 
hot spots 198 
heat map 104 
HEP 458 
human genome project, HGP 4,367 
DDBJ 20 

S 
3-dimensional motif-based 194 
epistasis 369 
biomarker 6 
bioinformatics 2 
biomark 418 
experimental cell 76 
acceptor 58 
tree length 222 
normalization 83 
quantitative trait loci, QTL 391 
bi-direction search 89 
double-negative feedback 445 
sequence 154 
search strategy 89 
random coil 202 


non-deterministic search 


89, 90 
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贪 禁 登 山 法 
特异 性 

特征 选择 
调控 的 反馈 环 
同 源 建 模 

同 源 建 模 
同 源 性 


完全 搜索 
网 络 

网 络 模块 
网 络 模 体 
网 络 模 体 
网 络 模 序 
MAE FERAN 
微 卫星 
微 效 性 
微 阵 列 
位 点 长 度 
位 点 构 型 
位 点 模式 
位 点 频谱 
无 尺度 
无 尺度 网 络 
无 规 卷曲 
无 权 网 络 
无 向 网 络 
物理 图 谱 


限制 性 内 切 酶 或 者 限制 性 的 标记 的 


基因 组 扫描 
相对 速率 检验 
相互 作用 界面 
相互 作用 位 点 
相似 性 


T 


greedy climbing hill 
specificity 

feature selection 
regulated feedback loop 
homology modeling 
homology—modelling 
homology 


Ww 


complete search 
network 


network module 


network motif 

motif 
microprocessor 
microsatellite, MS 
minor effect 
microarray 

site length 

site configuration 
site pattern 
site-frequency spectrum 
scale-free 
scale-free network 
random coil 
unweighted network 
undirected network 


physical map 
X 


RLGS 


relative—rate test 
interface 
interaction sites 


similarity 


112 
89 
445 
164 
173 
32 


90 

332 
236,347 
236 

443 

346 

408 

376 

369 

75 

222 

223 

223 

228 
237,436 
345 

155 

333 

332 

4 


458 


224 
198 
198 
32 
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Bi 

向 后 选择 
向 前 选择 
小 干扰 RNA 
小 世界 

言 号 传导 通路 
信号 肽 
信使 RNA 
性 状 长 度 
序列 比 对 
序列 片段 对 
序列 图 谱 
选择 压力 
血 源 一 致 性 
训练 集 


亚 基 

阳性 预测 率 
药物 基因 组 学 
一 级 结构 
遗传 关联 数据 库 
遗传 算法 
遗传 图 谱 
遗传 异 质 性 

异 变 的 甲 基 化 区 域 
阴性 预测 率 
印记 控制 区 

有 向 网 络 

有 向 无 环 图 
预 处 理 

原 位 合成 芯片 


增强 子 
HT 
真 阳 性 
正确 率 


embedded method 
backward elimination 
forward selection 

small interfering RNA , siRNA 
small world 

signal transduction pathway 
signal peptide 

mRNA 

character length 

sequence alignment 
segment pair 

sequence map 

selective pressure 
identical-by-descent , IBD 


training set 


Y 


subunit 

positive predictive value, precision 
pharmacogenomics 

primary structure 

genetic association database, GAD 
genetic algorithm 

genetic map 

heterogeneity 

VMRs 

negative predictive value 
imprinting control region, ICR 
directed network 

directed acyclic graph 
pre-procession 

light-controlled in situ synthesis of DNA 


microarrays 


Z 


fold 


accuracy 


92 
89 
89 
408 
237 
337 
67 
284 
222 
32 
40 


43 
379 
111 


156,203 
112 
9 
154 
371 
90 
4 
369 
489 
112 
466 
332 
47 
81 


77 


288 
169 
112 
112 


正 选择 

支持 向 量 
支持 向 量 机 

直径 

直系 同 源 
直系 同 源 体 
指导 树 

中 间 节 点 

中 心 节 点 

中 性 学 说 
种 系 形成 
转换 - 颠 换 矩阵 
转录 因子 

转录 因子 

转录 组 学 

转运 RNA 
状态 一 致 性 

自 组 织 映 射 

组 绰 白 甲 基 转移 酶 
组 蛋白 去 甲 基 化 酶 
组 蛋白 去 乙酰 化 酶 
组 蛋白 修饰 

组 蛋白 乙酰 化 转移 酶 
组 件 

组 织 差 异 甲 基 化 区 域 
祖先 重建 

最 大 完全 子 图 

最 简约 重建 

最 小 等 位 频率 
最 小 二 乘法 

最 小 公共 超 图 
最 小 进化 树 
最 优 超 分 面 
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positive selection 

support vector 

support vector machine, SVM 
diameter 

orthology 

orthologs 

guide tree 

intermediate nodes, ITN 

hub 

neutral theory of molecular evolution 
speciation 


transition-transversion matrix 


transcriptional factor, TF 
transcriptomics 

tRNA 

identical-by-state , IBS 
self-organizing map, SOM 
HMTs 

HDMTs 

HDAC 

histone modification 

HAT 

module 

T-DMRs 

ancestral reconstruction 
clique 

most parsimonious reconstruction 
minor allele frequency, MAF 
least-squares , LS 

minimal common supergraph 
minimum evolution tree 


optimal hyperplane 


226 
1 10 
110, 205 
344 
32 
32 
45 
440 
342 
224 
32 
34 
300 
428 
9 
284 
380 
104 
478 
478 
478 
461 
478 
157 
469, 473 
222 
436 
223 
375 
221 
47 
222 
110 


